Команда исследователей Google DeepMind опубликовала научную работу, в которой предлагает новый подход к измерению прогресса на пути к общему искусственному интеллекту (AGI). Вместо традиционных тестов разработчики предлагают использовать когнитивную таксономию, основанную на изучении человеческого интеллекта. Чтобы перевести теорию в практику, компания совместно с платформой Kaggle запустила масштабный хакатон для создания новых метрик оценки.
В последние годы индустрия активно обсуждает приближение AGI — систем, способных решать широкий спектр задач на уровне человека или превосходящих его. Однако главной проблемой остается отсутствие надежных эмпирических инструментов для оценки общего интеллекта. Существующие бенчмарки часто проверяют способность моделей запоминать данные из обучающей выборки или решать узкоспециализированные задачи, например, сдавать стандартизированные экзамены. Это не дает ответа на вопрос, обладает ли система подлинным пониманием и способностью к адаптации в новых условиях. Исследователи DeepMind решили обратиться к десятилетиям наработок в области психологии, нейробиологии и когнитивистики, чтобы создать более фундаментальную систему координат.
В представленной работе выделяется десять ключевых когнитивных способностей, критически важных для формирования общего интеллекта. В этот список вошли: восприятие (извлечение сенсорной информации), генерация (создание текста или действий), внимание (фокусировка на важном), обучение (усвоение новых знаний из опыта), память (хранение и извлечение информации), рассуждение (логический вывод), метапознание (мониторинг собственных когнитивных процессов), исполнительные функции (планирование и когнитивная гибкость), решение проблем и социальное познание (интерпретация социальных ситуаций).
Для объективной оценки этих навыков предложен строгий трехэтапный протокол. Сначала системы искусственного интеллекта тестируются на широком наборе задач с использованием скрытых тестовых данных, чтобы исключить риск контаминации (когда ответы случайно попадают в обучающую выборку). Затем собираются базовые показатели на тех же задачах от демографически репрезентативной выборки взрослых людей. Наконец, результаты ИИ сопоставляются с распределением человеческих показателей, что позволяет увидеть реальную картину возможностей модели в сравнении с человеком.
Понимая беспрецедентную сложность создания таких тестов, DeepMind обратилась к открытому сообществу. Хакатон на Kaggle, который продлится до 16 апреля, сфокусирован на пяти областях, где разрыв в методах оценки наиболее велик: обучение, метапознание, внимание, исполнительные функции и социальное познание. Участникам предлагается разработать новые тесты, используя платформу Community Benchmarks, и проверить их на передовых моделях. Призовой фонд составляет 200 тысяч долларов.
Эта инициатива знаменует важный сдвиг в философии оценки искусственного интеллекта. Индустрия начинает отходить от поверхностных метрик к глубокому анализу того, как именно модели обрабатывают информацию. Оценка таких параметров, как метапознание — то есть способность модели понимать границы собственных знаний, сомневаться и корректировать себя — критически важна для решения проблемы галлюцинаций. Социальное познание необходимо для создания безопасных систем, способных адекватно взаимодействовать с людьми.
Если инициатива окажется успешной, индустрия получит набор надежных, научно обоснованных инструментов для измерения реального прогресса в области AGI. Это поможет отделить маркетинговые заявления компаний от фактических технологических прорывов. В долгосрочной перспективе создание такой стандартизированной когнитивной панели управления позволит разработчикам точнее выявлять фундаментальные ограничения моделей и целенаправленно работать над их устранением.