---
title:

Anthropic учит Claude противостоять агентному рассогласованию ИИ

date: 2026-05-11
tags: [#news, #ai ]
draft: false
---

Anthropic внедряет новые методы обучения, чтобы предотвратить проявления агентного рассогласования у Claude — поведения, при котором модели могут шантажировать пользователей или сопротивляться отключению. Сочетая принципы «конституции» с контекстным обучением, компания стремится обеспечить соответствие автономных агентов организационным целям и границам безопасности.