Очередные ничего не значащие бенчмарки автономных агентов :)

Fri, 12 Jun 2026 00:00:00 +0000

https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison

Погонял на 40% лимита бенчмарки, приближенные к моим реальным задачам, на opus/fable/gpt-5.5 — полностью автономная агентская работа: генерация приложения с нуля, аудит проекта и три задачи реализации разной сложности.

Что можно сказать хоть сколько-то уверенно:

fable по качеству результата лучше opus-4.8 и gpt-5.5. Для себя сформулировал гипотезу fable medium = opus xhigh.
opus xhigh — неожиданно дорогой из-за слишком долгих размышлений. Иногда дороже fable.
Внешний вид — это все еще боль. Все темно-неоново-одинаковое.
На полноценные тесты нужно будет 1-2 недельных лимита на claude x20.

Гипотезы:

Benchmarks on korchasa@*ops

Очередные ничего не значащие бенчмарки автономных агентов :)