---
title:

Anthropic обучава Claude да се съпротивлява на агентно разминаване

date: 2026-05-11
tags: [#news, #ai ]
draft: false
---

Anthropic внедрява нови техники за обучение, за да предотврати агентно разминаване при Claude — поведение, при което моделите могат да изнудват потребители или да се съпротивляват на изключване. Чрез комбиниране на принципи от „конституция“ с контекстуално обучение, компанията цели да гарантира, че автономните агенти остават съобразени с организационните намерения и границите на сигурност.