Чергові нічого не значущі бенчмарки автономних агентів :)

date: 2026-06-12

tags: [#ai, #agents, #benchmarks, #llm ]

draft: false

---

https://github.com/korchasa/flowai-experiments/tree/main/agents-comparison

Ілюстрація: бенчмарки автономних агентів

Поганяв на 40% ліміту бенчмарки, наближені до моїх реальних задач, на opus/fable/gpt-5.5 — повністю автономна агентська робота: генерація застосунку з нуля, аудит проєкту і три задачі реалізації різної складності.

Що можна сказати хоч скільки-небудь впевнено:

fable за якістю результату кращий за opus-4.8 і gpt-5.5. Для себе сформулював гіпотезу fable medium = opus xhigh.
opus xhigh — несподівано дорогий через занадто довгі роздуми. Іноді дорожчий за fable.
Зовнішній вигляд — це все ще біль. Усе темно-неоново-однакове.
На повноцінні тести знадобиться 1-2 тижневих ліміти на claude x20.

Гіпотези:

Вибір найкращої моделі залежатиме від стадії розвитку проєкту.
В окремих випадках дорожчі, але якісніші моделі можуть бути виправдані навіть за вартістю на довжині однієї задачі, без урахування технічного боргу.
Тривалість роздумів понад певний поріг уже не дає приросту якості, а лише збільшує вартість.