Компания NVIDIA представила Nemotron 3 Nano 4B — новую компактную языковую модель с 4 миллиардами параметров. Она построена на гибридной архитектуре Mamba-Transformer и предназначена для эффективной работы на конечных устройствах (edge devices). Это важный шаг в развитии локального искусственного интеллекта, где критичны скорость отклика, конфиденциальность данных и низкое потребление памяти.
Тренд на уменьшение моделей набирает силу. Разработчики все чаще стремятся запускать ИИ не в облаке, а непосредственно на устройствах пользователей: от видеокарт серии RTX до встраиваемых систем вроде NVIDIA Jetson. Однако создание компактной модели, которая не уступает в логике более крупным аналогам, остается сложной инженерной задачей. NVIDIA решила эту проблему, применив продвинутые методы сжатия и дистилляции знаний.
Nemotron 3 Nano 4B не обучалась с нуля. Она была получена из более крупной модели Nemotron Nano 9B v2 с помощью технологии Nemotron Elastic. Вместо стандартных методов сжатия, исследователи использовали специальный маршрутизатор (router). В процессе обучения он автоматически определял, какие компоненты сети можно удалить с наименьшими потерями. Маршрутизатор сократил количество слоев с 56 до 42, уменьшил число голов Mamba и скрытые размерности, позволив точно вписаться в бюджет 4 миллиардов параметров.
После структурной обрезки (прунинга) модель прошла двухэтапную дистилляцию знаний от своей 9-миллиардной версии. Сначала восстанавливалась базовая точность на коротком контексте (8 тысяч токенов), а затем контекстное окно было расширено до 49 тысяч токенов для решения сложных задач, требующих длинных цепочек рассуждений. Финальная доработка включала обучение с подкреплением (RL) для улучшения навыков следования инструкциям и использования внешних инструментов.
Для работы на устройствах с ограниченной памятью модель была квантована до форматов FP8 и Q4_K_M (GGUF). Интересно, что инженеры применили выборочное квантование: слои механизма внимания и предшествующие им слои Mamba были оставлены в формате BF16. Это позволило сохранить 100% медианной точности на бенчмарках, при этом увеличив пропускную способность почти в два раза по сравнению с исходной версией.
Этот релиз демонстрирует, что индустрия переходит от простого обучения малых моделей к сложным пайплайнам автоматизированного поиска архитектуры и дистилляции. Метод, при котором ИИ сам решает, как оптимально «урезать» старшую модель, оказывается выгоднее и эффективнее классического претрейна.
В перспективе такие гибридные и глубоко оптимизированные модели станут основой для автономных агентов и робототехники. Способность локально обрабатывать контекст в 49 тысяч токенов, вызывать внешние инструменты и не требовать подключения к серверу открывает новые возможности для создания умных устройств, работающих полностью изолированно.