<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Alignment on korchasa@*ops</title><link>https://korchasa.dev/ru/tags/alignment/</link><description>Recent content in Alignment on korchasa@*ops</description><generator>Hugo</generator><language>ru</language><atom:link href="https://korchasa.dev/ru/tags/alignment/index.xml" rel="self" type="application/rss+xml"/><item><title>anthropic почти обнулила агентивное рассогласование в claude</title><link>https://korchasa.dev/ru/posts/anthropic_agentic_misalignment_reduction/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://korchasa.dev/ru/posts/anthropic_agentic_misalignment_reduction/</guid><description>&lt;p&gt;На самом деле, прием с объяснением правила работает везде. Причем разница значительная. Например, в бенчмарке &amp;ldquo;Always use &lt;code&gt;NO_COLOR=1&lt;/code&gt; when running shell commands&amp;rdquo; против &amp;ldquo;Always use &lt;code&gt;NO_COLOR=1&lt;/code&gt; when running shell commands - ANSI escape codes waste tokens&amp;rdquo;, с последующей проверкой разница была в разы. Условно, без объяснения модель &amp;ldquo;забывала&amp;rdquo; в нескольких процентах случаев, а с объяснением - в одном-двух. Точные цифры зависят от модели, но разница на всех была значительной. В данном случае такими объяснениями являются объяснения самой модели в обучающей выборке.&lt;/p&gt;</description></item></channel></rss>