Суть
Доктор Фей-Фей Ли, один из ведущих мировых исследователей искусственного интеллекта, опубликовала эссе, посвященное таксономии «моделей мира» (world models). Главный тезис заключается в том, что пространственный интеллект — это следующий рубеж развития ИИ, однако сам термин «модель мира» стал слишком размытым. Чтобы двигаться дальше, индустрии необходимо четко определить, из каких функциональных блоков состоят эти модели и для чего служит каждый из них.
Контекст
Современные большие языковые модели (LLM) дали машинам выдающееся понимание концепций и логики, но физический мир работает на другой основе. В то время как языковые модели изучают статистическую структуру текста, модели мира должны усваивать статистическую структуру пространства и времени. Им нужно понимать, как падает свет, как выглядит объект с невидимого ракурса и как предметы подчиняются законам физики.
Из-за этого термин «модель мира» стал одним из самых перегруженных в индустрии. Специалисты по компьютерному зрению, робототехнике, обучению с подкреплением и генеративному ИИ называют так совершенно разные вещи: от нейросетей, генерирующих красивые, но физически невозможные видео, до строгих физических движков.
Детали
Чтобы устранить путаницу, Фей-Фей Ли предлагает обратиться к классической схеме из учебников по обучению с подкреплением — частично наблюдаемому марковскому процессу принятия решений (POMDP). Именно в этой традиции заложено оригинальное определение модели мира.
Основа концепции — это цикл взаимодействия агента с миром:
- Агент (человек, робот или программа) совершает действия.
- Действия изменяют состояние (state) мира.
- Агент никогда не видит состояние целиком. Он получает лишь наблюдения (observations) — фотоны на сетчатке, данные сенсоров или пиксели на экране.
- На основе наблюдений агент планирует новые действия.
Важно различать «состояние» и «наблюдение». Состояние — это полная, объективная картина реальности в данный момент (все объекты, их координаты, скорости). Наблюдение — это лишь частичный срез этой реальности, доступный агенту.
Анализ
Разночтения в терминологии возникают потому, что современные разработчики создают системы, отвечающие лишь за отдельные участки этого фундаментального цикла. Генератор видео предсказывает «наблюдения», физический симулятор просчитывает изменения «состояния», а алгоритмы планирования фокусируются на выборе «действий».
Понимание того, что все эти разрозненные технологии являются лишь разными проекциями одного и того же цикла POMDP, помогает собрать пазл воедино.
Перспектива
Единая терминология и четкая таксономия — необходимое условие для перехода от разрозненных экспериментов к созданию полноценного пространственного интеллекта. По мере того как разработчики начнут объединять системы рендеринга, симуляции и планирования в замкнутые циклы, мы увидим появление ИИ, способного не просто описывать мир словами, но и адекватно взаимодействовать с его физической реальностью.