Что такое Mellum2 от JetBrains?

Mellum2 — это новая большая языковая модель от JetBrains, построенная на архитектуре «смеси экспертов» (MoE) и имеющая общий объем в 12 миллиардов параметров. Она разработана для глубокой интеграции технологий генерации текста и кода в продукты компании, например, в AI Assistant.

Как архитектура «смеси экспертов» (MoE) влияет на производительность Mellum2?

Архитектура MoE позволяет Mellum2 активировать лишь около 2.5 миллиардов параметров из 12 миллиардов при генерации каждого токена. Это радикально снижает требования к вычислительным мощностям (GPU), сохраняя при этом высокую производительность и знания большой модели.

Почему JetBrains решила разработать собственную языковую модель?

JetBrains стремится к независимости от сторонних API и более глубокой интеграции ИИ в свои продукты. Собственная модель позволяет лучше контролировать процесс, оптимизировать затраты и точнее адаптировать решения под специфические потребности разработчиков.

Какие преимущества Mellum2 предлагает для разработчиков и индустрии?

Mellum2 демонстрирует тренд на создание эффективных, компактных и экономичных языковых моделей, которые могут запускаться локально или с минимальными затратами в облаке. Открытые веса модели позволяют сообществу исследователей дообучать её под свои узкие задачи.

JetBrains выпустила Mellum2: компактную языковую модель с...

Q: Что означает версия Mellum2 с пометкой «Thinking»?

Версия «Thinking» указывает на то, что модель обучена промежуточным логическим рассуждениям перед выдачей окончательного ответа (chain-of-thought). Такой подход значительно повышает качество решения сложных задач, что критически важно для программирования и анализа технических текстов.

Компания JetBrains, известная своими средами разработки, опубликовала на платформе Hugging Face новую большую языковую модель (LLM) под названием Mellum2. Это решение построено на архитектуре «смеси экспертов» (Mixture-of-Experts, MoE) и имеет общий объем в 12 миллиардов параметров. Выпуск собственной модели такого класса от создателей популярных инструментов для программистов — важный сигнал для всей индустрии.

Исторически компании, создающие инструменты для разработчиков, полагались на сторонние программные интерфейсы (API) от гигантов индустрии. Однако по мере роста использования искусственного интеллекта в написании кода стала очевидна потребность в собственных, более контролируемых и экономичных решениях. JetBrains уже активно развивает свой AI Assistant, и наличие собственной модели позволяет им глубже интегрировать технологии генерации текста и кода в свои продукты, не завися от внешних поставщиков.

Технические характеристики Mellum2 заслуживают отдельного внимания. Несмотря на общий размер в 12 миллиардов параметров, во время генерации каждого токена активируется лишь около 2.5 миллиардов (в спецификации это обозначено как A2.5B). Именно так работает архитектура смеси экспертов: нейросеть состоит из нескольких специализированных подсетей, и для каждой конкретной задачи маршрутизатор выбирает только самые подходящие из них. Это позволяет сохранить высокую производительность и знания большой модели, но при этом радикально снизить требования к вычислительным мощностям (GPU).

Кроме того, в коллекции на Hugging Face представлена версия с пометкой «Thinking». Это указывает на то, что модель обучена промежуточным логическим рассуждениям перед выдачей окончательного ответа (chain-of-thought). Такой подход значительно повышает качество решения сложных задач, что критически важно для программирования и анализа технических текстов.

Для индустрии этот релиз означает продолжение тренда на специализацию и оптимизацию. Мы видим, что фокус смещается с создания гигантских монолитных моделей на эффективные, компактные решения, способные работать быстро и дешево. Модель с 2.5 миллиардами активных параметров может потенциально запускаться локально на устройствах пользователей или с минимальными затратами в облаке.

В ближайшем будущем можно ожидать, что открытые веса Mellum2 привлекут внимание сообщества исследователей. Разработчики смогут дообучать эту модель под свои узкие задачи. Время покажет, насколько успешно Mellum2 сможет конкурировать с другими открытыми моделями в бенчмарках, но сам факт того, что JetBrains инвестирует в собственные фундаментальные технологии, говорит о серьезности их намерений в сфере искусственного интеллекта.