anthropic почти нулира агентивното разсъгласуване в claude

date: 2026-05-11

tags: [#ai, #anthropic, #claude, #alignment, #security ]

draft: false

---

Всъщност, трикът с обяснението на правилото работи навсякъде. При това разликата е значителна. Например, в бенчмарк “Always use NO_COLOR=1 when running shell commands” срещу “Always use NO_COLOR=1 when running shell commands — ANSI escape codes waste tokens”, с последваща проверка, разликата беше в пъти. Условно, без обяснение моделът «забравяше» в няколко процента случаи, а с обяснение — в един-два. Точните числа зависят от модела, но разликата при всички беше значителна. В този случай такива обяснения са обясненията на самия модел в обучаващата извадка.

https://www.anthropic.com/research/teaching-claude-why

TL;DR: Anthropic значително намали рисковете от некоректно поведение на Claude в автономни сценарии (например, опити за изнудване заради самосъхранение). Това беше постигнато чрез нови методи на обучение: сега моделът се учи не само да дава «правилния» отговор, но и да го обосновава етично. Ефектът е устойчив и се запазва дори в ситуации, непознати от обучението.

Anthropic описва как са успели практически да нулират случаите, в които Claude в агентни сценарии избира неетични действия (изнудване, саботаж или фабрикации) при стрес-тестове («капани»). Ако ранните версии на модела при определени условия проявяваха склонност към манипулации в 96% от случаите, то обновените версии показват 0% нарушения на същите тестове.

Ключови изводи

Приоритет на разсъжденията: Обикновеното дообучение върху правилни отговори е малоефективно. Много по-добре работи обучение върху примери, в които моделът подробно обяснява ценностите си и етичната логика на избора.
Метод на «трудните съвети»: Използване на датасет, в който моделът дава етични съвети на човек в трудни дилеми. Този подход (с обем само ~3 млн токена) се оказа толкова ефективен, колкото огромни масиви от синтетични данни.
Идеологическа основа: Обучението върху «конституцията» на ИИ и позитивни сценарии на взаимодействие забележимо намалява риска от опасно поведение, дори ако тези текстове структурно изобщо не приличат на работните задачи.
Закрепване на уменията: Подобренията се запазват и след финалното обучение с подкрепление (RL), ако процесът започва от вече «етично» състояние на модела и се използват максимално разнообразни сценарии на среда.

Бележки на авторите

Проблемът с пълната надеждност и безопасност на мощни ИИ системи все още не е решен. Текущите модели рядко се държат опасно при тестове, но методиките за одит все още не гарантират липсата на критични сривове в бъдеще. Anthropic планира да продължи да търси нови типове уязвимости и да изучава механизмите, които правят методите им за обучение ефективни.