На конференции по компьютерному зрению и распознаванию образов (CVPR) исследователи представили три новые работы, объединенные общей идеей: масштабное обучение в симуляциях позволяет создавать системы искусственного интеллекта, способные к широкому обобщению. Это важный шаг к созданию универсальных роботов и более эффективных автономных автомобилей, способных работать в непредсказуемых условиях реального мира.
Исторически системы физического искусственного интеллекта создавались как узкие специалисты. Например, модель управления роботизированной рукой обучалась под конкретную модель манипулятора с определенным количеством пальцев. При смене оборудования весь процесс сбора данных и обучения приходилось начинать заново. Автопилоты сталкивались с другой проблемой: современные методы рассуждения требуют больших вычислительных мощностей, которых часто нет на борту автомобиля. А виртуальным агентам не хватало разнообразия сред для качественного предварительного обучения, что делало их беспомощными при столкновении с новыми задачами.
NVIDIA GTC Taipei at COMPUTEX: Live Updates on What’s Next in AI
Исследователи предложили три решения этих проблем. Первое — GraspGen-X. Это первая базовая модель (foundation model) для захвата объектов с нулевым выстрелом (zero-shot). Она была обучена на наборе данных из двух миллиардов симулированных захватов, охватывающих тысячи форм объектов и конфигураций манипуляторов. Теперь модель может анализировать геометрию любого незнакомого манипулятора и объекта, предлагая надежные варианты захвата без необходимости переобучения.
Второе решение — LCDrive. Оно решает проблему вычислительной сложности для автономного транспорта. В последнее время стало понятно, что промежуточные рассуждения улучшают качество решений искусственного интеллекта. Однако генерация текста занимает время. LCDrive заменяет текстовые цепочки рассуждений (chain-of-thought) на компактные скрытые представления (latent representations). Система чередует предложение действий и предсказание состояния мира в сжатом векторном пространстве. Это позволяет сохранить качество планирования маршрута, сократив количество обрабатываемых токенов примерно вдвое.
Vera Arrives: NVIDIA’s First CPU Built for Agents Lands at Top AI Labs
Третье решение — NitroGen. Это базовая модель для воплощенных агентов (embodied agents), построенная на архитектуре Isaac GR00T. Она была обучена на 40 000 часах игрового процесса в более чем 1000 видеоигр разных жанров. Игры предоставляют структурированные миры с четкими целями и условиями успеха. Обучение в таких разнообразных условиях дает агентам огромное преимущество: при переносе в новые среды с минимальным количеством данных их производительность возрастает на величину до 52 процентов по сравнению с предыдущими передовыми методами.
Эти исследования наглядно демонстрируют фундаментальный сдвиг в индустрии: переход от создания специализированных алгоритмов к разработке универсальных базовых моделей для физического мира. Отказ от жесткой привязки к конкретному оборудованию радикально снижает барьер входа для разработчиков робототехники. Компании смогут выбирать оптимальные манипуляторы для своих задач, не беспокоясь о необходимости создания новых наборов данных. В то же время, оптимизация процессов рассуждения позволяет внедрять сложные когнитивные архитектуры в устройства с жесткими ограничениями по энергопотреблению и вычислительной мощности.
В ближайшие годы мы, вероятно, увидим стандартизацию подходов к обучению физического искусственного интеллекта. Масштабные симуляторы и процедурно генерируемые виртуальные миры станут основным полигоном для подготовки моделей перед их переносом в реальность. Это существенно ускорит появление адаптивных домашних роботов-помощников и сделает системы автономного вождения более надежными и быстрыми в принятии критических решений. Развитие сжатых форматов мышления для моделей откроет путь к внедрению продвинутого искусственного интеллекта в компактные потребительские устройства.