Что такое новый когнитивный подход Google DeepMind к оценке AGI?

Google DeepMind предлагает оценивать Общий Искусственный Интеллект (AGI) через когнитивную таксономию, основанную на изучении человеческого интеллекта. Этот подход фокусируется на 10 ключевых способностях, таких как восприятие, обучение и метапознание, чтобы измерить истинное понимание и адаптивность систем.

Какие когнитивные способности Google DeepMind считает ключевыми для AGI?

Исследователи Google DeepMind выделили десять критически важных когнитивных способностей для общего интеллекта. Среди них: восприятие, генерация, внимание, обучение, память, рассуждение, метапознание, исполнительные функции, решение проблем и социальное познание.

Почему традиционные методы оценки ИИ не подходят для AGI?

Традиционные бенчмарки часто проверяют способность моделей запоминать данные или решать узкоспециализированные задачи, например, сдавать экзамены. Однако они не дают представления о подлинном понимании, способности к адаптации в новых условиях или самостоятельному мышлению, что критично для AGI.

Как Google DeepMind планирует создавать новые тесты для оценки AGI?

Для разработки новых метрик Google DeepMind запустила хакатон на платформе Kaggle с призовым фондом 200 000 долларов. Участникам предлагается создать тесты для оценки пяти ключевых областей, включая обучение, метапознание и социальное познание, используя платформу Community Benchmarks.

Google DeepMind предлагает когнитивный подход к оценке AG...

Q: Какое значение имеет оценка метапознания и социального познания для развития ИИ?

Оценка метапознания, то есть способности ИИ понимать границы своих знаний и корректировать себя, критически важна для решения проблемы галлюцинаций. Социальное познание необходимо для создания безопасных и этичных систем, способных адекватно взаимодействовать с людьми и интерпретировать социальные ситуации.

Команда исследователей Google DeepMind опубликовала научную работу, в которой предлагает новый подход к измерению прогресса на пути к общему искусственному интеллекту (AGI). Вместо традиционных тестов разработчики предлагают использовать когнитивную таксономию, основанную на изучении человеческого интеллекта. Чтобы перевести теорию в практику, компания совместно с платформой Kaggle запустила масштабный хакатон для создания новых метрик оценки.

В последние годы индустрия активно обсуждает приближение AGI — систем, способных решать широкий спектр задач на уровне человека или превосходящих его. Однако главной проблемой остается отсутствие надежных эмпирических инструментов для оценки общего интеллекта. Существующие бенчмарки часто проверяют способность моделей запоминать данные из обучающей выборки или решать узкоспециализированные задачи, например, сдавать стандартизированные экзамены. Это не дает ответа на вопрос, обладает ли система подлинным пониманием и способностью к адаптации в новых условиях. Исследователи DeepMind решили обратиться к десятилетиям наработок в области психологии, нейробиологии и когнитивистики, чтобы создать более фундаментальную систему координат.

ryanburnell

В представленной работе выделяется десять ключевых когнитивных способностей, критически важных для формирования общего интеллекта. В этот список вошли: восприятие (извлечение сенсорной информации), генерация (создание текста или действий), внимание (фокусировка на важном), обучение (усвоение новых знаний из опыта), память (хранение и извлечение информации), рассуждение (логический вывод), метапознание (мониторинг собственных когнитивных процессов), исполнительные функции (планирование и когнитивная гибкость), решение проблем и социальное познание (интерпретация социальных ситуаций).

Для объективной оценки этих навыков предложен строгий трехэтапный протокол. Сначала системы искусственного интеллекта тестируются на широком наборе задач с использованием скрытых тестовых данных, чтобы исключить риск контаминации (когда ответы случайно попадают в обучающую выборку). Затем собираются базовые показатели на тех же задачах от демографически репрезентативной выборки взрослых людей. Наконец, результаты ИИ сопоставляются с распределением человеческих показателей, что позволяет увидеть реальную картину возможностей модели в сравнении с человеком.

orankelly

Понимая беспрецедентную сложность создания таких тестов, DeepMind обратилась к открытому сообществу. Хакатон на Kaggle, который продлится до 16 апреля, сфокусирован на пяти областях, где разрыв в методах оценки наиболее велик: обучение, метапознание, внимание, исполнительные функции и социальное познание. Участникам предлагается разработать новые тесты, используя платформу Community Benchmarks, и проверить их на передовых моделях. Призовой фонд составляет 200 тысяч долларов.

Эта инициатива знаменует важный сдвиг в философии оценки искусственного интеллекта. Индустрия начинает отходить от поверхностных метрик к глубокому анализу того, как именно модели обрабатывают информацию. Оценка таких параметров, как метапознание — то есть способность модели понимать границы собственных знаний, сомневаться и корректировать себя — критически важна для решения проблемы галлюцинаций. Социальное познание необходимо для создания безопасных систем, способных адекватно взаимодействовать с людьми.

Если инициатива окажется успешной, индустрия получит набор надежных, научно обоснованных инструментов для измерения реального прогресса в области AGI. Это поможет отделить маркетинговые заявления компаний от фактических технологических прорывов. В долгосрочной перспективе создание такой стандартизированной когнитивной панели управления позволит разработчикам точнее выявлять фундаментальные ограничения моделей и целенаправленно работать над их устранением.