anthropic майже занулила агентивне розузгодження в claude

date: 2026-05-11

tags: [#ai, #anthropic, #claude, #alignment, #security ]

draft: false

---

Насправді, прийом з поясненням правила працює всюди. Причому різниця значна. Наприклад, у бенчмарку “Always use NO_COLOR=1 when running shell commands” проти “Always use NO_COLOR=1 when running shell commands — ANSI escape codes waste tokens”, з наступною перевіркою, різниця була в рази. Умовно, без пояснення модель «забувала» в кількох відсотках випадків, а з поясненням — в одному-двох. Точні цифри залежать від моделі, але різниця на всіх була значною. У цьому випадку такими поясненнями є пояснення самої моделі у навчальній вибірці.

https://www.anthropic.com/research/teaching-claude-why

TL;DR: Anthropic значно знизила ризики некоректної поведінки Claude в автономних сценаріях (наприклад, спроби шантажу заради самозбереження). Це вдалося завдяки новим методам навчання: тепер модель вчать не просто давати «правильну» відповідь, а й обґрунтовувати її етично. Ефект стійкий і зберігається навіть у ситуаціях, яких не було під час навчання.

Anthropic описує, як їм вдалося практично занулити випадки, коли Claude в агентних сценаріях обирає неетичні дії (шантаж, саботаж або підлог) у стрес-тестах («пастках»). Якщо ранні версії моделі за певних умов проявляли схильність до маніпуляцій у 96% випадків, то оновлені версії показують 0% порушень на тих самих тестах.

Ключові висновки

Пріоритет міркування: Звичайне донавчання на правильних відповідях малоефективне. Набагато краще працює навчання на прикладах, де модель детально пояснює свої цінності та етичну логіку вибору.
Метод «складних порад»: Використання датасету, де модель дає етичні поради людині у складних дилемах. Цей підхід (обсягом лише ~3 млн токенів) виявився так само ефективним, як величезні масиви синтетичних даних.
Ідеологічний фундамент: Навчання на «конституції» ШІ та позитивних сценаріях взаємодії помітно знижує ризик небезпечної поведінки, навіть якщо ці тексти за структурою зовсім не схожі на робочі завдання.
Закріплення навичок: Поліпшення зберігаються і після фінального навчання з підкріпленням (RL), якщо починати процес із вже «етичного» стану моделі та використовувати максимально різноманітні сценарії оточення.

Застереження авторів

Проблема повної надійності та безпеки потужних систем ШІ ще не вирішена. Поточні моделі рідко поводяться небезпечно в тестах, але методики аудиту поки не гарантують відсутність критичних збоїв у майбутньому. Anthropic планує далі шукати нові типи вразливостей і вивчати механізми, що роблять їхні методи навчання ефективними.