Anthropic представи естествени езикови автоенкодери (NLA), които превеждат числовите активации на ИИ моделите в четим текст. Това изследване помага на разработчиците да подобрят тестването за безопасност и да разберат по-добре защо моделите вземат определени решения.