Головна » Блог » Найкращі нейромоделі провалили головний AI-бенчмарк для програмістів: 0% рішень на LiveCodeBench Pro

Найкращі нейромоделі провалили головний AI-бенчмарк для програмістів: 0% рішень на LiveCodeBench Pro

28.06.2025 08:24 • Автор: IT-PUB

У червні 2025 року у світ вийшли результати нового тесту для штучного інтелекту — LiveCodeBench Pro, що складається з реальних задач найвищої складності з майданчиків Codeforces, ICPC і YOU. Цей бенчмарк одразу отримав визнання спільноти як новий стандарт перевірки можливостей генеративного AI у програмуванні. Але найгучнішою новиною стало повне фіаско нейронних мереж — жодна з них не змогла розв’язати жодну з 584 задач.

Що таке LiveCodeBench Pro

LiveCodeBench Pro — це набір із сотень реальних задач, які раніше використовувались у контестах на міжнародному рівні. Тут немає "штучних" або спрощених прикладів. Всі завдання потребують розуміння алгоритмів, структур даних, математичної логіки та ефективності коду. До категорій задач увійшли:

комбінаторика;

графи та дерева;

динамічне програмування;

теорія ігор;

жадібні алгоритми;

задачі на оптимізацію.

Платформа запускає кожне розв’язання в ізольованому середовищі й оцінює його автоматично, як у справжньому змаганні.

Результат: AI — 0%, люди — 2700 Elo

Під час тестування жодна з найпотужніших відкритих AI-моделей, включно з GPT‑4, Claude Opus, Gemini 1.5, Mistral та LLaMA, не змогла успішно пройти жоден повний тестовий кейс. Їх усереднений рейтинг — 1500 Elo, що відповідає середньому новачку на Codeforces.

Для порівняння: щоб потрапити до топ‑200 програмістів світу, потрібно мати рейтинг від 2700 Elo. Це майже вдвічі більше, ніж змогли досягти моделі, навіть із численними підказками та оптимізацією під формат задач.

Чому AI провалив тест

Причин кілька:

Глибина рекурсії та оптимізація: багато задач потребують не просто правильного алгоритму, а й ідеального розрахунку складності.

Потреба у стратегії: завдання з теорії ігор або комбінаційної логіки неможливо розв’язати лише шаблонним підходом.

Формат перевірки: на відміну від інженерних задач, де "наближення" може бути прийнятним, тут приймається лише 100% правильна відповідь.

Що це означає для розробників

Незважаючи на успіхи генеративного AI у повсякденних завданнях — написанні скриптів, автотестів або SQL‑запитів — у справжньому змагальному програмуванні нейромережі все ще відстають. Це підтверджує, що:

досвід людини, стратегічне мислення і здатність бачити «вузьке місце» алгоритму — незамінні;

автоматизація складних задач поки обмежена;

для навчання та тренувань AI слід розглядати як інструмент, але не як повноцінного замінника.

LiveCodeBench Pro — це лакмусовий папір для нейромереж. Поки штучний інтелект показав нульовий результат у реальних задачах програмування, що ще раз підкреслює важливість людської експертизи. Якщо ти розробник — твоя унікальність і здатність мислити нестандартно все ще на вагу золота.