anthropic почти нулира агентивното разсъгласуване в claude

Mon, 11 May 2026 00:00:00 +0000

Всъщност, трикът с обяснението на правилото работи навсякъде. При това разликата е значителна. Например, в бенчмарк “Always use NO_COLOR=1 when running shell commands” срещу “Always use NO_COLOR=1 when running shell commands — ANSI escape codes waste tokens”, с последваща проверка, разликата беше в пъти. Условно, без обяснение моделът «забравяше» в няколко процента случаи, а с обяснение — в един-два. Точните числа зависят от модела, но разликата при всички беше значителна. В този случай такива обяснения са обясненията на самия модел в обучаващата извадка.

Alignment on korchasa@*ops

anthropic почти нулира агентивното разсъгласуване в claude