<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Benchmarks on korchasa@*ops</title><link>https://korchasa.dev/ru/tags/benchmarks/</link><description>Recent content in Benchmarks on korchasa@*ops</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Fri, 12 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://korchasa.dev/ru/tags/benchmarks/index.xml" rel="self" type="application/rss+xml"/><item><title>Очередные ничего не значащие бенчмарки автономных агентов :)</title><link>https://korchasa.dev/ru/posts/2026_06_12_agents_comparison_benchmarks/</link><pubDate>Fri, 12 Jun 2026 00:00:00 +0000</pubDate><guid>https://korchasa.dev/ru/posts/2026_06_12_agents_comparison_benchmarks/</guid><description>&lt;p&gt;&lt;a href="https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison" rel="nofollow noopener noreferrer external"&gt;https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src="https://korchasa.dev/posts/2026_06_12_agents_comparison_benchmarks/image.png" alt="Иллюстрация: бенчмарки автономных агентов"&gt;&lt;/p&gt;
&lt;p&gt;Погонял на 40% лимита бенчмарки, приближенные к моим реальным задачам, на opus/fable/gpt-5.5 — полностью автономная агентская работа: генерация приложения с нуля, аудит проекта и три задачи реализации разной сложности.&lt;/p&gt;
&lt;p&gt;Что можно сказать хоть сколько-то уверенно:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;fable по качеству результата лучше opus-4.8 и gpt-5.5. Для себя сформулировал гипотезу fable medium = opus xhigh.&lt;/li&gt;
&lt;li&gt;opus xhigh — неожиданно дорогой из-за слишком долгих размышлений. Иногда дороже fable.&lt;/li&gt;
&lt;li&gt;Внешний вид — это все еще боль. Все темно-неоново-одинаковое.&lt;/li&gt;
&lt;li&gt;На полноценные тесты нужно будет 1-2 недельных лимита на claude x20.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Гипотезы:&lt;/p&gt;</description></item></channel></rss>