Компания H анонсировала выпуск Holo3.1 — нового поколения моделей, предназначенных для автоматизации работы с графическими интерфейсами. Главной особенностью релиза стал фокус на локальном развертывании и кроссплатформенности. Разработчики сместили приоритет с простого наращивания мощности на гибкость интеграции и защиту данных пользователя.
Предыдущая версия, Holo3, показала высокий спрос среди разработчиков и бизнеса. Однако практика показала, что для полноценного внедрения ИИ-агентов в рабочие процессы одной лишь высокой производительности недостаточно. Пользователям требовалась возможность запускать агентов в различных средах — от облака до конечных устройств, сохраняя при этом конфиденциальность данных.
Семейство Holo3.1, построенное на базе архитектуры Qwen, решает проблему фрагментации сред исполнения. Разработчики значительно улучшили работу моделей на мобильных устройствах. Например, во внутреннем тесте AndroidWorld флагманская модель 35B-A3B повысила свой результат с 67% до 79.3%. Младшие версии на 4 и 9 миллиардов параметров также показали существенный рост, достигнув 72%.
Для интеграции в сторонние агентные платформы в Holo3.1 добавлена нативная поддержка вызова функций (function-calling). Ранее модели полагались преимущественно на структурированный вывод в формате JSON. Нововведение позволило выровнять производительность агентов в различных бенчмарках, включая OSWorld и внутренние тесты корпоративного ПО.
Ключевым технологическим шагом стал выпуск квантованных (сжатых) версий моделей. Впервые компания предлагает веса в форматах FP8, Q4 GGUF и NVFP4. Использование оптимизатора моделей от NVIDIA позволило создать конфигурацию W4A16 для формата NVFP4, которая обеспечивает высокую скорость работы при минимальной потере качества.
Тесты на оборудовании DGX Spark показывают, что формат NVFP4 обрабатывает токены в 1.41 раза быстрее, чем FP8, и в 1.74 раза быстрее базового BF16. В связке с оптимизацией агентной среды это дает двукратное ускорение выполнения задач, снижая среднее время одного шага агента с 6.8 до 3.3 секунд. Формат Q4 GGUF, в свою очередь, нацелен на запуск моделей непосредственно на потребительском оборудовании, таком как компьютеры Mac и Windows.
Линейка моделей теперь включает четыре размера. Версия на 0.8 миллиарда параметров предназначена для ультралегких локальных агентов. Модели на 4 и 9 миллиардов предлагают баланс между стоимостью, производительностью и задержкой. Флагманская 35B-A3B остается решением для самых сложных задач.
Этот релиз отражает важный сдвиг в индустрии искусственного интеллекта. Разработчики осознают, что будущее ИИ-агентов лежит не только в облачных вычислениях, но и на периферии (edge computing). Локальное исполнение решает критическую проблему корпоративного сектора — безопасность данных, так как информация не покидает внутреннюю сеть пользователя.
В ближайшем будущем можно ожидать появления большего числа десктопных приложений, которые будут использовать подобные компактные и быстрые модели для автоматизации рутинных задач пользователя непосредственно на его устройстве. Переход от облачной монополии к гибридным и локальным решениям делает технологии ИИ более доступными и безопасными.