Большие языковые модели научили роботов понимать расплывч...

Исследователи из MIT CSAIL представили алгоритм Masked IRL (Masked Inverse Reinforcement Learning). Он использует большие языковые модели (LLM) для того, чтобы помочь роботам правильно интерпретировать неточные команды человека и безопасно выполнять бытовые или производственные задачи. Это важный шаг в робототехнике, так как он решает проблему барьера между естественной человеческой речью и строгим машинным кодом.

Традиционно обучение робота новым физическим задачам требует либо написания огромного количества строк кода, либо сотен физических демонстраций, когда человек буквально водит рукой робота, показывая нужные движения. Проблема усугубляется тем, что люди склонны давать расплывчатые инструкции. Человек может сказать «поставь кофе на стол, но не мешай мне», подразумевая множество негласных правил: не пролей напиток, не задень ноутбук, не перекрой экран. Роботу без исчерпывающих инструкций эти нюансы непонятны.

About five photos of a robotic experiment are collaged together. A robotic arm uses a spoon to pick up red marbles and place in a bowl. A human hand pushes and pulls the robotic hand. Marbles are scattered on the table and are also being poured into the new bowl.

Новый подход автоматизирует процесс обучения с помощью двух языковых моделей. Первая LLM анализирует физическую демонстрацию (траекторию движения) и расширяет первоначальный запрос пользователя. Например, короткая команда «держись ближе» превращается в более точное «держись ближе к поверхности стола».

Вторая модель оценивает детали окружающей среды и отсеивает нерелевантную информацию, создавая своеобразную маску внимания. Алгоритм присваивает каждому элементу среды оценку: «1» (важно для задачи) или «0» (можно игнорировать). Если во время демонстрации человек опирался на стол, модель поймет, что для задачи переноса кружки эта деталь не имеет значения.

Person at laptop, with floating AI-app buttons and charts.

Такой подход позволил сократить объем необходимых демонстрационных данных почти в пять раз. В ходе экспериментов система Masked IRL на 15 процентов чаще правильно определяла скрытые предпочтения пользователей по сравнению с базовыми методами. Роботы успешно перемещали предметы, избегая столкновений с техникой и людьми.

Использование LLM в качестве интерпретатора физического мира открывает новые возможности для индустрии. Языковые модели здесь выступают не просто как генераторы текста, а как фильтры внимания и инструменты базового пространственного рассуждения. Они помогают алгоритмам планирования движений сосредоточиться только на критически важных переменных, отбрасывая информационный шум.

Пока система опирается в основном на сенсоры и физические демонстрации. Следующим шагом, по словам исследователей, станет добавление компьютерного зрения. Интеграция камер позволит алгоритму динамически реагировать на изменения в среде — например, замечать новые препятствия и корректировать маршрут на лету. Время покажет, насколько быстро подобные системы смогут адаптироваться к хаосу реальных человеческих жилищ, но текущие результаты выглядят многообещающе.