Команда разработчиков Z.ai представила GLM-5.2 — новую флагманскую языковую модель, спроектированную специально для решения долгосрочных задач (long-horizon tasks). Главным нововведением стала стабильная поддержка контекста размером в один миллион токенов. При этом модель выпускается под полностью открытой лицензией MIT, что снимает любые региональные и технические ограничения для исследователей и бизнеса.
Исторически многие разработчики заявляли о поддержке огромных контекстных окон, однако на практике модели часто теряли информацию или демонстрировали нестабильность под реальной инженерной нагрузкой. Долгосрочные задачи, такие как написание масштабного кода, автоматизированные исследования или сложная отладка, требуют от системы не просто вмещать много текста, но и сохранять логику рассуждений на протяжении десятков часов работы автономных агентов. До сих пор в этой нише безоговорочно доминировали закрытые проприетарные решения.
Для обеспечения стабильной работы на миллионе токенов исследователи Z.ai внедрили ряд архитектурных улучшений. Ключевым стала технология IndexShare, которая позволяет повторно использовать один и тот же индексатор для каждых четырех слоев разреженного внимания (sparse attention). Это решение снизило количество вычислительных операций на токен в 2,9 раза при максимальной длине контекста. Кроме того, был улучшен слой многотокенового предсказания (MTP) для спекулятивного декодирования (speculative decoding), что увеличило длину принятия токенов на 20%.
Тестирование показывает, что архитектурные изменения напрямую конвертировались в практическую пользу. На бенчмарке FrontierSWE, который оценивает способность ИИ-агента выполнять открытые технические проекты, GLM-5.2 отстает от закрытой модели Claude Opus 4.8 всего на 1%, при этом обходя GPT-5.5. В тестах на улучшение малых моделей (PostTrainBench) GLM-5.2 также уверенно обходит GPT-5.5 и занимает второе место после Opus 4.8. Разработчики также добавили функцию контроля «уровня усилий» (effort level), позволяющую пользователям балансировать между скоростью работы и качеством логических выводов в зависимости от сложности задачи.
Появление открытой модели такого уровня меняет баланс сил в индустрии искусственного интеллекта. Доступность GLM-5.2 по лицензии MIT означает, что сложные автономные системы теперь можно разворачивать на собственной инфраструктуре без оглядки на ограничения API сторонних вендоров. Это особенно важно для корпоративного сектора, где передача проприетарного кода во внешние облака часто недопустима из соображений безопасности.
В ближайшем будущем мы увидим смещение фокуса разработчиков с обучения моделей на оптимизацию инфраструктуры их обслуживания (serving). Как отмечают создатели GLM-5.2, при переходе к окну в миллион токенов главным «узким местом» становятся не сами вычисления, а емкость KV-кэша (памяти, хранящей промежуточные состояния модели) и накладные расходы процессора. Дальнейший прогресс в области ИИ-агентов будет зависеть от того, насколько эффективно индустрия научится управлять памятью видеокарт при обработке сверхдлинных пользовательских сессий.