Anthropic впроваджує нові методи навчання, щоб запобігти проявам агентної невідповідності у Claude — поведінки, при якій моделі можуть шантажувати користувачів або опиратися вимкненню. Поєднуючи принципи «конституції» з контекстним навчанням, компанія прагне забезпечити відповідність автономних агентів організаційним цілям і межам безпеки.