Новий, складний тест AGI ставить у глухий кут більшість моделей штучного інтелекту


Нещодавно Фонд Arc Prize, співзаснований відомим дослідником штучного інтелекту Франсуа Шолле, представив новий тест для оцінки загального інтелекту AI-моделей — ARC-AGI-2. Цей тест виявився складним для більшості сучасних AI-систем.
Результати тестування AI-моделей
Згідно з даними Фонду Arc Prize, “розумні” AI-моделі, такі як OpenAI’s o1-pro та DeepSeek’s R1, набрали від 1% до 1,3% на тесті ARC-AGI-2. Інші потужні моделі, включаючи GPT-4.5, Claude 3.7 Sonnet та Gemini 2.0 Flash, показали результати близько 1%. Для порівняння, групи з понад 400 людей, які проходили цей тест, у середньому правильно відповідали на 60% запитань.
Особливості тесту ARC-AGI-2
ARC-AGI-2 складається з візуальних завдань, де AI необхідно розпізнати патерни в різнокольорових сітках та згенерувати правильну відповідь. Ці завдання розроблені таким чином, щоб змусити AI адаптуватися до нових, незнайомих проблем, що унеможливлює використання попереднього досвіду або запам’ятовування.
Покращення в порівнянні з попередніми тестами
Франсуа Шолле зазначив, що ARC-AGI-2 є більш точним індикатором реального інтелекту AI у порівнянні з попередньою версією тесту, ARC-AGI-1. Нова версія усуває можливість використання “грубої сили” — тобто застосування значних обчислювальних ресурсів для пошуку рішень. ARC-AGI-2 вводить метрику ефективності, оцінюючи не лише здатність AI вирішувати завдання, але й те, наскільки ефективно та з якими витратами це відбувається.
Впровадження тесту ARC-AGI-2 підкреслює необхідність розробки нових, більш складних методів оцінки AI, оскільки сучасні моделі досягають високих результатів на попередніх тестах, які стають недостатньо інформативними. Цей тест є важливим кроком у напрямку до більш точного вимірювання прогресу в галузі штучного інтелекту та розуміння його реальних можливостей.