<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Alignment on korchasa@*ops</title><link>https://korchasa.dev/bg/tags/alignment/</link><description>Recent content in Alignment on korchasa@*ops</description><generator>Hugo</generator><language>bg</language><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://korchasa.dev/bg/tags/alignment/index.xml" rel="self" type="application/rss+xml"/><item><title>anthropic почти нулира агентивното разсъгласуване в claude</title><link>https://korchasa.dev/bg/posts/2026_05_11_anthropic_agentic_misalignment_reduction/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://korchasa.dev/bg/posts/2026_05_11_anthropic_agentic_misalignment_reduction/</guid><description>&lt;p&gt;Всъщност, трикът с обяснението на правилото работи навсякъде. При това разликата е значителна. Например, в бенчмарк &amp;ldquo;Always use &lt;code&gt;NO_COLOR=1&lt;/code&gt; when running shell commands&amp;rdquo; срещу &amp;ldquo;Always use &lt;code&gt;NO_COLOR=1&lt;/code&gt; when running shell commands — ANSI escape codes waste tokens&amp;rdquo;, с последваща проверка, разликата беше в пъти. Условно, без обяснение моделът «забравяше» в няколко процента случаи, а с обяснение — в един-два. Точните числа зависят от модела, но разликата при всички беше значителна. В този случай такива обяснения са обясненията на самия модел в обучаващата извадка.&lt;/p&gt;</description></item></channel></rss>