anthropic почти обнулила агентивное рассогласование в claude

Mon, 01 Jan 0001 00:00:00 +0000

На самом деле, прием с объяснением правила работает везде. Причем разница значительная. Например, в бенчмарке “Always use NO_COLOR=1 when running shell commands” против “Always use NO_COLOR=1 when running shell commands - ANSI escape codes waste tokens”, с последующей проверкой разница была в разы. Условно, без объяснения модель “забывала” в нескольких процентах случаев, а с объяснением - в одном-двух. Точные цифры зависят от модели, но разница на всех была значительной. В данном случае такими объяснениями являются объяснения самой модели в обучающей выборке.

Alignment on korchasa@*ops

anthropic почти обнулила агентивное рассогласование в claude