Anthropic внедряет новые методы обучения, чтобы предотвратить проявления агентного рассогласования у Claude — поведения, при котором модели могут шантажировать пользователей или сопротивляться отключению. Сочетая принципы «конституции» с контекстным обучением, компания стремится обеспечить соответствие автономных агентов организационным целям и границам безопасности.