ARC-AGI, Claude и покемоны: где на самом деле ИИ?

Давайте начнем с небольшого теста. Я предлагаю вам картинку, паттерн. Ваша задача – понять закономерность и заполнить пустое поле. 

Пример тестового задания ARC-AGI для ИИ

Не сомневаюсь, что после нескольких секунд раздумий у вас получилось что-то типа такого:

Пример решения тестового задания для ИИ ARC-AGI

Если да, то вы на сегодняшний день, скорее всего, все еще превосходите по своим интеллектуальным способностям самый топовые ИИ модели. 

ИИ против человека

Про тест ARC-AGI я как-то рассказывал в своем телеграм-канале. Он легко решается человеком, а у генеративного ИИ вызывает боль и страдания. 

Бенчмарк (как и многие другие) продержался не долго. И новые модели, в частности o3 от OpenAI показала результат, который в принципе можно засчитывать за успех.

Сравнение результатов разных моделей на тестах ARC-AGI

И я в общем воспринял это как сигнал к тому, что мы движемся ближе и ближе к общему ИИ, который сможет решать инженерные задачи. 

Одним из ключевых нюансов, на который все обратили внимание – это то, сколько стоило решение каждой задачи. Модели, сколько бы умными они не были, в основном атаковали тест брутфорсом, заливая сложные задачи инференсом. 

Авторы ARC-AGI это учли в новой версии теста. Он все еще решаем людьми (как это видно из примера выше), но теперь также измеряется эффективность решения. 

Даже самые умные из reasoning-ИИ, вроде o1-pro и R1, набрали всего 1–1.3%. GPT-4.5, Claude 3.7 и Gemini 2.0 — не заточены под рассуждение — набрали еще меньше. Для сравнения: человек в среднем решает 60% этих задач.

Зависимость качества решения от стоимости решения задачи для ИИ моделей на разных версиях ARC-AGI

Попробовать свои силы можно по ссылке

ИИ против покемонов

Прогресс вроде есть. Но создается впечатление, что все, что пока получается – это затачивать модели под бенчмарки. Конечно, модели можно затачивать под решение конкретных тестов. Нельзя сказать, что это не честно. Ведь именно так они придут в нашу повседневность – как инструмент для решения конкретной задачи в конкретной области. 

Поэтому вот вам еще один пример, демонстрирующий пропасть между современным ИИ и человеческим интеллектом.

Anthropic экспериментировали со своей моделью Claude 3.7 Sonnet – дав ей в прямом эфире играть в Pokemon. Это старая игра и нельзя сказать, что она сильно сложная для восприятия человеком. Я в нее играл школьником, даже не зная толком английского языка. 

Модель Claude от Anthropic играла в игру Pokemon

Claude 3.7 Sonnet, испытывает серьезные трудности даже на начальных этапах игры. 80 часов провел в Mt. Moon, боролся со стеной и забывал что нужно делать в игре в принципе. 

Но это эксперимент, настолько чистый, насколько это возможно. Модель специально не обучали игре, она руководствовалась только общими знаниями о покемонах. Были и проблески интеллекта. Например, когда у модели долго ничего не получалось – она понимала, что нужно менять подход и начинала искать новые варианты решения своих трудностей. Предыдущие поколения моделей в аналогичных ситуациях застревали навсегда. 

Результаты разных моделей Anthropic в тесте с игрой в Pokemon

Основная проблема сейчас – это ориентация в пространстве. Графика старых поколений приставок настолько простая, что ИИ не понимает, что именно она представляет. Там, где все мы видим дерево или дорогу – ИИ может видеть стену или в принципе не распознать суть объекта. 

Так где мы сейчас?

Сложно сказать. 

Я все больше склоняюсь к тому, что AGI в том виде, в каком его представляет себе большинство – пока далековат. Мы быстро перескочили с масштабирования моделей к прикручиванию к ним CoT и дистилляции. Для меня, как стороннего наблюдателя, это значит, что базовая планка установлена. Где-то на уровне GPT 4.5. Дальше все равно нужно будет модель адаптировать к тем задачам, которые перед ней будут стоять. Почти как с человеком, которому нужно сходить в институт и получить высшее образование, прежде чем быть полезным. 

А значит кроме изменений в базовом уровне, теперь нужно особое внимание уделять тому, как именно модели адаптируют к задачам. А это уже совсем другая дисциплина, где нужны как ИИ-инженеры, так и subject matter experts.