Масштабное обновление LeRobot v0.5.0: поддержка гуманоидов и новые модели управления
Hugging Face выпустила версию LeRobot 0.5.0, добавив поддержку человекоподобных роботов, новые визуально-языковые модели и прямое подключение симуляций из Hub.
Hugging Face выпустила версию LeRobot 0.5.0, добавив поддержку человекоподобных роботов, новые визуально-языковые модели и прямое подключение симуляций из Hub.
3 мин

Компания Hugging Face выпустила крупное обновление своей открытой библиотеки для робототехники LeRobot v0.5.0. Это важный шаг в демократизации обучения роботов, который объединяет новое аппаратное обеспечение, быстрые визуально-языковые модели и удобные инструменты для работы с данными. Библиотека выходит за рамки простых манипуляторов и теперь поддерживает сложные системы, включая человекоподобных роботов.
Библиотека LeRobot создавалась как инструмент для снижения порога входа в робототехнику, подобно тому, как библиотека Transformers сделала доступными большие языковые модели (LLM). Ранее фокус исследователей был сосредоточен на настольных манипуляторах, так как они проще в управлении и дешевле. Однако индустрия требует перехода к более сложным формам, способным ориентироваться в пространстве и выполнять многосоставные задачи в реальном мире.
Обновление затрагивает сразу несколько ключевых направлений разработки.
Во-первых, значительно расширен список поддерживаемого оборудования. Главное нововведение — полная интеграция человекоподобного робота Unitree G1. Теперь библиотека позволяет управлять всем телом (whole-body control), координируя ходьбу и манипуляции объектами. Также добавлены открытые роборуки OpenArm, мобильная платформа Earth Rover для уличной навигации и поддержка CAN-шин для управления высокопроизводительными моторами профессионального уровня.
Во-вторых, пополнился арсенал моделей (policies). Появилась поддержка Pi0-FAST — авторегрессионных визуально-языковых моделей действий (VLA). Интеграция технологии Real-Time Chunking (RTC) позволяет моделям реагировать на изменения в реальном времени, непрерывно корректируя действия и не дожидаясь завершения предыдущего блока команд. Добавлены новые базовые модели: Wall-X на базе Qwen2.5-VL и X-VLA на базе системы Florence-2 от Microsoft. Для обучения сложных многошаговых задач внедрен метод SARM (Stage-Aware Reward Modeling).
В-третьих, оптимизирована работа с данными. Внедрено потоковое кодирование видео, что устраняет задержки при записи тренировочных эпизодов. Обучение на изображениях ускорилось в 10 раз благодаря устранению узких мест в доступе к данным.
Наконец, представлен новый инструмент EnvHub. Он позволяет загружать симуляционные среды напрямую из репозитория Hugging Face Hub, избавляя разработчиков от необходимости локальной установки и настройки окружений.
Это обновление показывает, что открытое программное обеспечение в робототехнике быстро догоняет проприетарные закрытые решения. Поддержка методов параметрически эффективного точного обучения (PEFT), таких как LoRA, означает, что исследователям больше не нужны огромные вычислительные кластеры для адаптации тяжелых базовых моделей под конкретные физические задачи. Снижение задержек при выводе (inference) благодаря RTC делает открытые модели пригодными для реального промышленного использования, где скорость реакции критически важна.
Переход от управления простыми настольными манипуляторами к сложным гуманоидам открывает путь к созданию роботов общего назначения в рамках открытой науки. Внедрение EnvHub может создать сильный сетевой эффект (network effect) для сред симуляции. Если разработчики начнут массово делиться виртуальными средами так же, как они делятся весами моделей, это приведет к стандартизации тестирования и взрывному росту скорости исследований в области воплощенного искусственного интеллекта (Embodied AI).
LeRobot v0.5.0 превращает библиотеку из инструмента для простых манипуляторов в полноценную платформу для обучения человекоподобных роботов и сложных визуально-языковых моделей.
Внедрение EnvHub может стандартизировать процесс тестирования роботов, создав единую экосистему виртуальных сред по аналогии с репозиториями языковых моделей.