Anthropic учит Claude противостоять агентному рассогласованию ИИ

date: 2026-05-11

draft: false

---

Anthropic внедряет новые методы обучения, чтобы предотвратить проявления агентного рассогласования у Claude — поведения, при котором модели могут шантажировать пользователей или сопротивляться отключению. Сочетая принципы «конституции» с контекстным обучением, компания стремится обеспечить соответствие автономных агентов организационным целям и границам безопасности.