На платформе Hugging Face появились новые модели от исследовательской лаборатории DeepSeek — линейка DeepSeek-V4. Главным нововведением стал контекстный окно размером в один миллион токенов, которое, по заявлениям разработчиков, действительно может эффективно использоваться автономными агентами. Это важный шаг в развитии искусственного интеллекта с открытым исходным кодом (open source).
Исторически размер контекстного окна был одним из главных ограничений больших языковых моделей (LLM). Ранее мы уже видели модели с поддержкой миллиона токенов и более в проприетарных системах, однако перенос таких возможностей в открытый доступ меняет правила игры. Проблема длинного контекста заключается не только в том, чтобы модель могла принять большой объем текста, но и в том, чтобы она не теряла важную информацию из середины документа — феномен, известный как «потеря в середине» (lost in the middle). Акцент DeepSeek на том, что этот контекст агенты «действительно могут использовать», указывает на серьезную работу над качеством извлечения информации.
Линейка представлена несколькими версиями, которые поражают своими масштабами. Модель DeepSeek-V4-Flash имеет 158 миллиардов параметров в версии для генерации текста и 292 миллиарда в базовой версии. Флагманская модель DeepSeek-V4-Pro достигает 862 миллиардов параметров, а ее базовая версия (Base) насчитывает колоссальные 1.6 триллиона параметров. Разница в размерах между базовыми и настроенными моделями может свидетельствовать о применении сложных методов квантования или специфической архитектуры смеси экспертов (MoE), где при генерации активируется лишь часть параметров.
Для индустрии этот релиз означает дальнейшее размытие границ между закрытыми коммерческими разработками и открытой наукой (open science). Наличие в открытом доступе моделей размером свыше триллиона параметров дает исследователям по всему миру возможность изучать поведение сверхбольших нейросетей, их уязвимости и потенциал. Это стимулирует развитие методов эффективного вывода (инференса), так как запуск модели на 1.6 триллиона параметров требует огромных вычислительных ресурсов и кластеров из множества графических процессоров (GPU).
Пока рано судить о том, насколько DeepSeek-V4 превзойдет конкурентов в независимых тестах. Однако тенденция очевидна: открытые модели стремительно масштабируются. В ближайшем будущем мы, вероятно, увидим волну новых инструментов для оптимизации работы с такими гигантскими сетями, а также появление сложных автономных агентов, способных анализировать целые библиотеки кода или массивы финансовой документации за один запрос.