Локальный мультимодальный ИИ: запуск NVIDIA Cosmos на устройствах Jetson
Разбор технического руководства по развертыванию модели Cosmos Reasoning 2B на граничных устройствах NVIDIA Jetson с использованием vLLM.

Суть новости
Компания NVIDIA опубликовала подробное техническое руководство по развертыванию визуально-языковых моделей (Vision Language Models, VLM) на устройствах серии Jetson. Речь идет о модели NVIDIA Cosmos Reasoning 2B, которая способна не просто распознавать объекты, но и рассуждать о происходящем в кадре, используя естественный язык. Главная особенность этого релиза — возможность запускать современные мультимодальные модели непосредственно на «краю» (edge), то есть на самом устройстве, без необходимости отправлять видеопоток в облако. Это критически важно для робототехники и автономных систем, где задержки передачи данных недопустимы.
Контекст
Долгое время сложные нейросети требовали мощных серверных видеокарт. Однако развитие архитектур моделей и оптимизация аппаратного обеспечения постепенно смещают вектор вычислений в сторону локальных устройств. Семейство NVIDIA Jetson — это специализированные компьютеры для встраиваемых систем и робототехники. Ранее на них запускали преимущественно классические задачи компьютерного зрения (детектирование, сегментация). Теперь же, благодаря оптимизации фреймворка vLLM и появлению компактных, но умных моделей вроде Cosmos 2B, на этих устройствах становится доступен сложный семантический анализ видеопотока в реальном времени.
Технические детали
В руководстве рассматривается развертывание модели на трех типах устройств: мощном Jetson AGX Thor, производительном Jetson AGX Orin и компактном Jetson Orin Nano Super. Для запуска используется фреймворк vLLM, который известен своей высокой эффективностью при инференсе (исполнении) моделей.
Ключевые моменты процесса:
- Модель: Используется квантованная версия Cosmos Reasoning 2B (формат FP8). Квантование снижает требования к памяти практически без потери качества, что критично для встраиваемых систем.



