<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Benchmarks on korchasa@*ops</title><link>https://korchasa.dev/uk/tags/benchmarks/</link><description>Recent content in Benchmarks on korchasa@*ops</description><generator>Hugo</generator><language>uk</language><lastBuildDate>Fri, 12 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://korchasa.dev/uk/tags/benchmarks/index.xml" rel="self" type="application/rss+xml"/><item><title>Чергові нічого не значущі бенчмарки автономних агентів :)</title><link>https://korchasa.dev/uk/posts/2026_06_12_agents_comparison_benchmarks/</link><pubDate>Fri, 12 Jun 2026 00:00:00 +0000</pubDate><guid>https://korchasa.dev/uk/posts/2026_06_12_agents_comparison_benchmarks/</guid><description>&lt;p&gt;&lt;a href="https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison" rel="nofollow noopener noreferrer external"&gt;https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src="https://korchasa.dev/posts/2026_06_12_agents_comparison_benchmarks/image.png" alt="Ілюстрація: бенчмарки автономних агентів"&gt;&lt;/p&gt;
&lt;p&gt;Поганяв на 40% ліміту бенчмарки, наближені до моїх реальних задач, на opus/fable/gpt-5.5 — повністю автономна агентська робота: генерація застосунку з нуля, аудит проєкту і три задачі реалізації різної складності.&lt;/p&gt;
&lt;p&gt;Що можна сказати хоч скільки-небудь впевнено:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;fable за якістю результату кращий за opus-4.8 і gpt-5.5. Для себе сформулював гіпотезу fable medium = opus xhigh.&lt;/li&gt;
&lt;li&gt;opus xhigh — несподівано дорогий через занадто довгі роздуми. Іноді дорожчий за fable.&lt;/li&gt;
&lt;li&gt;Зовнішній вигляд — це все ще біль. Усе темно-неоново-однакове.&lt;/li&gt;
&lt;li&gt;На повноцінні тести знадобиться 1-2 тижневих ліміти на claude x20.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Гіпотези:&lt;/p&gt;</description></item></channel></rss>