Компания H Company выпустила Holotron-12B — мультимодальную модель, специально разработанную для использования в качестве агента, управляющего компьютером. В отличие от большинства современных визуально-языковых моделей, которые оптимизированы для статического анализа изображений или следования текстовым инструкциям, Holotron-12B создавалась для динамичной работы. Ее главная задача — воспринимать интерфейс, принимать решения и эффективно действовать в интерактивных средах.
Развитие ИИ-агентов, способных самостоятельно работать за компьютером, долгое время упиралось в аппаратные ограничения. Для взаимодействия с операционной системой модели необходимо постоянно анализировать скриншоты экрана, сохраняя при этом историю предыдущих действий. В классических архитектурах на базе трансформеров это приводит к экспоненциальному росту потребления памяти из-за необходимости хранить кэш ключ-значение (KV Cache) для каждого токена. В результате масштабирование таких решений в производственной среде становится экономически нецелесообразным.
Holotron-12B решает эту проблему за счет использования гибридной архитектуры, объединяющей механизм внимания и модели пространства состояний (SSM - State-Space Model). В качестве базовой модели исследователи взяли открытую разработку NVIDIA — Nemotron-Nano-12B-v2-VL-BF16. Главное преимущество архитектуры SSM заключается в радикальном снижении требований к памяти. Вместо сохранения активаций для каждого токена, модель пространства состояний использует линейную рекуррентность, сохраняя лишь константное состояние для каждого слоя. Это делает вычислительные затраты независимыми от длины последовательности.
Технические показатели подтверждают эффективность такого подхода. При тестировании на одном ускорителе H100 с использованием библиотеки vLLM модель показала пропускную способность в 8.9 тысяч токенов в секунду при одновременной обработке 100 запросов. Это более чем в два раза превышает показатели предыдущей версии Holo2-8B. Более того, на профильном бенчмарке WebVoyager, который оценивает способность ИИ выполнять задачи в веб-интерфейсах, Holotron-12B достиг точности в 80.5%, тогда как базовая модель показывала лишь 35.1%.
Для индустрии этот релиз означает важный сдвиг в проектировании агентных систем. Мы видим, что для специфических задач, требующих постоянного анализа визуального потока и длительного контекста, чистые трансформеры уступают место гибридным архитектурам. Эффективное использование видеопамяти позволяет увеличивать размер пакета (batch size) при инференсе, что критически важно для коммерческого применения, где стоимость обработки одного запроса определяет жизнеспособность продукта.
В будущем H Company планирует продолжить масштабирование своих решений. Разработчики уже заявили о подготовке к обучению следующего поколения моделей на базе недавно анонсированной архитектуры Nemotron 3 Omni. Это указывает на то, что фокус исследований смещается от доказательства работоспособности концепции автономных агентов к их оптимизации для массового коммерческого развертывания с высокой пропускной способностью и низкими задержками.