<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Benchmarks on korchasa@*ops</title><link>https://korchasa.dev/bg/tags/benchmarks/</link><description>Recent content in Benchmarks on korchasa@*ops</description><generator>Hugo</generator><language>bg</language><lastBuildDate>Fri, 12 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://korchasa.dev/bg/tags/benchmarks/index.xml" rel="self" type="application/rss+xml"/><item><title>Поредните нищо не значещи бенчмаркове на автономни агенти :)</title><link>https://korchasa.dev/bg/posts/2026_06_12_agents_comparison_benchmarks/</link><pubDate>Fri, 12 Jun 2026 00:00:00 +0000</pubDate><guid>https://korchasa.dev/bg/posts/2026_06_12_agents_comparison_benchmarks/</guid><description>&lt;p&gt;&lt;a href="https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison" rel="nofollow noopener noreferrer external"&gt;https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src="https://korchasa.dev/posts/2026_06_12_agents_comparison_benchmarks/image.png" alt="Илюстрация: бенчмаркове на автономни агенти"&gt;&lt;/p&gt;
&lt;p&gt;Погоних на 40% от лимита бенчмаркове, близки до моите реални задачи, на opus/fable/gpt-5.5 — напълно автономна агентска работа: генериране на приложение от нулата, одит на проект и три задачи за реализация с различна сложност.&lt;/p&gt;
&lt;p&gt;Какво може да се каже поне донякъде уверено:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;fable по качество на резултата е по-добър от opus-4.8 и gpt-5.5. За себе си формулирах хипотезата fable medium = opus xhigh.&lt;/li&gt;
&lt;li&gt;opus xhigh — неочаквано скъп заради твърде дългите разсъждения. Понякога по-скъп от fable.&lt;/li&gt;
&lt;li&gt;Външният вид все още е болка. Всичко е тъмно-неоново-еднакво.&lt;/li&gt;
&lt;li&gt;За пълноценни тестове ще са нужни 1-2 седмични лимита на claude x20.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Хипотези:&lt;/p&gt;</description></item></channel></rss>