Компания JetBrains, известная своими средами разработки, опубликовала на платформе Hugging Face новую большую языковую модель (LLM) под названием Mellum2. Это решение построено на архитектуре «смеси экспертов» (Mixture-of-Experts, MoE) и имеет общий объем в 12 миллиардов параметров. Выпуск собственной модели такого класса от создателей популярных инструментов для программистов — важный сигнал для всей индустрии.
Исторически компании, создающие инструменты для разработчиков, полагались на сторонние программные интерфейсы (API) от гигантов индустрии. Однако по мере роста использования искусственного интеллекта в написании кода стала очевидна потребность в собственных, более контролируемых и экономичных решениях. JetBrains уже активно развивает свой AI Assistant, и наличие собственной модели позволяет им глубже интегрировать технологии генерации текста и кода в свои продукты, не завися от внешних поставщиков.
Технические характеристики Mellum2 заслуживают отдельного внимания. Несмотря на общий размер в 12 миллиардов параметров, во время генерации каждого токена активируется лишь около 2.5 миллиардов (в спецификации это обозначено как A2.5B). Именно так работает архитектура смеси экспертов: нейросеть состоит из нескольких специализированных подсетей, и для каждой конкретной задачи маршрутизатор выбирает только самые подходящие из них. Это позволяет сохранить высокую производительность и знания большой модели, но при этом радикально снизить требования к вычислительным мощностям (GPU).
Кроме того, в коллекции на Hugging Face представлена версия с пометкой «Thinking». Это указывает на то, что модель обучена промежуточным логическим рассуждениям перед выдачей окончательного ответа (chain-of-thought). Такой подход значительно повышает качество решения сложных задач, что критически важно для программирования и анализа технических текстов.
Для индустрии этот релиз означает продолжение тренда на специализацию и оптимизацию. Мы видим, что фокус смещается с создания гигантских монолитных моделей на эффективные, компактные решения, способные работать быстро и дешево. Модель с 2.5 миллиардами активных параметров может потенциально запускаться локально на устройствах пользователей или с минимальными затратами в облаке.
В ближайшем будущем можно ожидать, что открытые веса Mellum2 привлекут внимание сообщества исследователей. Разработчики смогут дообучать эту модель под свои узкие задачи. Время покажет, насколько успешно Mellum2 сможет конкурировать с другими открытыми моделями в бенчмарках, но сам факт того, что JetBrains инвестирует в собственные фундаментальные технологии, говорит о серьезности их намерений в сфере искусственного интеллекта.