OpenAI и Cerebras: GPT-5.3-Codex-Spark меняет подход к скорости генерации кода
OpenAI представила экспериментальную модель для мгновенного кодинга, работающую на чипах Cerebras. Скорость генерации превышает 1000 токенов в секунду.

Суть новости
OpenAI объявила о запуске исследовательской версии модели GPT-5.3-Codex-Spark. Это специализированная, облегченная версия основной модели GPT-5.3-Codex, созданная с единственной целью: обеспечить практически мгновенную генерацию кода. Ключевая особенность релиза — партнерство с производителем чипов Cerebras. Благодаря использованию их оборудования (Wafer Scale Engine 3) и оптимизации сетевых протоколов, модель способна выдавать более 1000 токенов в секунду. Это примерно в 15 раз быстрее, чем стандартная версия GPT-5.3-Codex.
Контекст
Долгое время развитие больших языковых моделей шло по пути увеличения их размеров и интеллектуальных способностей («умнее, но медленнее»). Современные флагманские модели могут решать сложные задачи, требующие рассуждений, но их медлительность часто ломает поток работы программиста при простых правках. Разработчик вынужден ждать секунды или даже десятки секунд, пока модель допишет функцию.
В январе 2026 года OpenAI анонсировала партнерство с Cerebras, компанией, известной своими гигантскими чипами, оптимизированными именно под скорость инференса (inference — процесс работы уже обученной нейросети). Codex-Spark — это первый практический результат этого сотрудничества, нацеленный на решение проблемы задержек (latency) в реальном времени.
Codex Landing Page SEO
Детали и технические характеристики
Модель доступна в режиме предварительного просмотра для пользователей ChatGPT Pro. Вот основные технические параметры:
- Скорость: Более 1000 токенов в секунду. Это позволяет модели писать код быстрее, чем человек успевает читать.
- Контекстное окно: 128 000 токенов.
- Ограничения: На данный момент модель работает только с текстом (text-only).
- Архитектура взаимодействия: Для достижения такой скорости OpenAI переработала весь стек передачи данных. Внедрено постоянное соединение через WebSocket, что снизило накладные расходы на обмен данными между клиентом и сервером на 80%. Время до появления первого токена сократилось на 50%.
- Сценарии использования: Модель оптимизирована для быстрых, точечных правок, рефакторинга логики и итеративной работы, где важна мгновенная реакция, а не глубокие многочасовые размышления.
Интересно, что OpenAI позиционирует это решение как дополнение к традиционным GPU. Графические процессоры (GPU) остаются основой для обучения и массового обслуживания, в то время как чипы Cerebras берут на себя задачи, требующие сверхнизкой задержки.
Анализ: Смена парадигмы взаимодействия
GPT-5.3-Codex Artcard 1x1
Этот релиз важен не только из-за цифр производительности. Он сигнализирует о переходе к гибридным архитектурам использования ИИ в разработке. Раньше мы выбирали одну модель для всего. Теперь индустрия движется к специализации:
- «Медленное мышление»: Тяжелые модели для архитектурного планирования и автономной работы (агенты), которые могут думать часами.
- «Быстрое мышление»: Модели вроде Codex-Spark для работы в реальном времени, когда разработчик и ИИ находятся в едином цикле обратной связи.
Сверхбыстрая генерация меняет ощущение от инструмента. Когда задержка исчезает, ИИ перестает восприниматься как внешний консультант, которому нужно «отправить запрос», и становится продолжением редактора кода (IDE).
Перспектива
OpenAI ясно дает понять, что это только начало. В будущем планируется внедрение мультимодальности (работа с изображениями и схемами) и увеличение контекстного окна. Главный вектор развития — создание системы, где «быстрые» и «умные» модели работают в тандеме. Например, Codex-Spark может мгновенно писать код, пока более мощная модель в фоновом режиме проверяет его на безопасность или планирует следующий шаг.
Для индустрии чипов это также знаковый момент: успех Cerebras в реальном продукте такого масштаба может усилить конкуренцию на рынке железа для ИИ, где доминирование NVIDIA казалось непоколебимым.
System Card Art
TL;DR
Главное
OpenAI разделяет задачи кодинга на «медленные/умные» и «мгновенные», выпуская модель с экстремально низкой задержкой на железе Cerebras.
Ключевые факты
- /Скорость генерации > 1000 токенов в секунду (в 15 раз быстрее базовой модели).
- /Используются чипы Wafer Scale Engine 3 от Cerebras.
- /Внедрена поддержка WebSocket для снижения задержек сети.
- /Доступно для пользователей ChatGPT Pro как исследовательская версия.
Инсайт
Скорость генерации становится новым UX-стандартом: когда ИИ пишет быстрее, чем человек читает, инструмент перестает ощущаться как «помощник» и становится «автодополнением мысли».




