JetBrains выпустила Mellum2: компактную языковую модель со архитектурой смеси экспертов
Компания JetBrains представила новую модель Mellum2 на 12 миллиардов параметров. Разбираем, как архитектура MoE помогает оптимизировать работу искусственного интеллекта для разработчиков.

Компания JetBrains, известная своими средами разработки, опубликовала на платформе Hugging Face новую большую языковую модель (LLM) под названием Mellum2. Это решение построено на архитектуре «смеси экспертов» (Mixture-of-Experts, MoE) и имеет общий объем в 12 миллиардов параметров. Выпуск собственной модели такого класса от создателей популярных инструментов для программистов — важный сигнал для всей индустрии.
Исторически компании, создающие инструменты для разработчиков, полагались на сторонние программные интерфейсы (API) от гигантов индустрии. Однако по мере роста использования искусственного интеллекта в написании кода стала очевидна потребность в собственных, более контролируемых и экономичных решениях. JetBrains уже активно развивает свой AI Assistant, и наличие собственной модели позволяет им глубже интегрировать технологии генерации текста и кода в свои продукты, не завися от внешних поставщиков.
Технические характеристики Mellum2 заслуживают отдельного внимания. Несмотря на общий размер в 12 миллиардов параметров, во время генерации каждого токена активируется лишь около 2.5 миллиардов (в спецификации это обозначено как A2.5B). Именно так работает архитектура смеси экспертов: нейросеть состоит из нескольких специализированных подсетей, и для каждой конкретной задачи маршрутизатор выбирает только самые подходящие из них. Это позволяет сохранить высокую производительность и знания большой модели, но при этом радикально снизить требования к вычислительным мощностям (GPU).
Кроме того, в коллекции на Hugging Face представлена версия с пометкой «Thinking». Это указывает на то, что модель обучена промежуточным логическим рассуждениям перед выдачей окончательного ответа (chain-of-thought). Такой подход значительно повышает качество решения сложных задач, что критически важно для программирования и анализа технических текстов.
Для индустрии этот релиз означает продолжение тренда на специализацию и оптимизацию. Мы видим, что фокус смещается с создания гигантских монолитных моделей на эффективные, компактные решения, способные работать быстро и дешево. Модель с 2.5 миллиардами активных параметров может потенциально запускаться локально на устройствах пользователей или с минимальными затратами в облаке.
В ближайшем будущем можно ожидать, что открытые веса Mellum2 привлекут внимание сообщества исследователей. Разработчики смогут дообучать эту модель под свои узкие задачи. Время покажет, насколько успешно Mellum2 сможет конкурировать с другими открытыми моделями в бенчмарках, но сам факт того, что JetBrains инвестирует в собственные фундаментальные технологии, говорит о серьезности их намерений в сфере искусственного интеллекта.



