Anthropic внедрява нови техники за обучение, за да предотврати агентно разминаване при Claude — поведение, при което моделите могат да изнудват потребители или да се съпротивляват на изключване. Чрез комбиниране на принципи от „конституция“ с контекстуално обучение, компанията цели да гарантира, че автономните агенти остават съобразени с организационните намерения и границите на сигурност.