Очередные ничего не значащие бенчмарки автономных агентов :)

date: 2026-06-12

tags: [#ai, #agents, #benchmarks, #llm ]

draft: false

---

https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison

Иллюстрация: бенчмарки автономных агентов

Погонял на 40% лимита бенчмарки, приближенные к моим реальным задачам, на opus/fable/gpt-5.5 — полностью автономная агентская работа: генерация приложения с нуля, аудит проекта и три задачи реализации разной сложности.

Что можно сказать хоть сколько-то уверенно:

fable по качеству результата лучше opus-4.8 и gpt-5.5. Для себя сформулировал гипотезу fable medium = opus xhigh.
opus xhigh — неожиданно дорогой из-за слишком долгих размышлений. Иногда дороже fable.
Внешний вид — это все еще боль. Все темно-неоново-одинаковое.
На полноценные тесты нужно будет 1-2 недельных лимита на claude x20.

Гипотезы:

Выбор лучшей модели будет зависеть от стадии развития проекта.
В отдельных случаях более дорогие, но более качественные модели могут быть оправданы даже по стоимости на длине одной задачи, без учета технического долга.
Длительность размышлений свыше какого-то порога уже не дает прироста качества, а только увеличивает стоимость.