Ускорение агентных рабочих процессов: как переход на WebSockets снизил задержки API
Инженеры OpenAI внедрили поддержку WebSockets в Responses API, решив проблему сетевых задержек и ускорив работу автономных агентов на 40 процентов.
Инженеры OpenAI внедрили поддержку WebSockets в Responses API, решив проблему сетевых задержек и ускорив работу автономных агентов на 40 процентов.
3 мин

Компания OpenAI внедрила поддержку протокола WebSockets в свой Responses API, что позволило сократить задержки в агентных рабочих процессах на 40 процентов. Это обновление решает фундаментальную проблему: по мере того как генерация текста моделями становится быстрее, традиционная архитектура передачи данных начинает тормозить весь процесс.
Когда автономный агент, например Codex, выполняет сложную задачу (анализирует код, вносит правки, запускает тесты), он совершает десятки последовательных обращений к API. Исторически самым медленным этапом этого цикла был вывод (inference) — процесс генерации новых токенов на графических процессорах (GPU).

Diagram titled “A Codex agent loop in practice” showing an iterative flow between Codex and the Responses API, with tool calls (rg, sed, apply_patch, pytest) and results exchanged until the final message: “The bug has been fixed.”
Однако с появлением новых специализированных аппаратных решений, таких как чипы Cerebras, скорость вывода многократно возросла. Для модели GPT-5.3-Codex-Spark целевой показатель составил более 1000 токенов в секунду. При таких скоростях узким местом стала сама инфраструктура API. В старой парадигме каждый запрос обрабатывался как независимый: системе приходилось заново передавать и обрабатывать всю историю диалога, что создавало огромные накладные расходы.
Чтобы устранить эти ограничения, разработчики пересмотрели транспортный протокол и перешли на использование постоянного соединения через WebSockets.
Вместо того чтобы при каждом запросе заново собирать контекст, сервер теперь хранит кэш состояния предыдущего ответа в оперативной памяти в рамках одного соединения. Разработчикам достаточно передать параметр previous_response_id, чтобы продолжить работу. В кэше сохраняются предыдущие объекты ответов, определения инструментов и уже отрендеренные токены.
Такой подход позволил:

Diagram titled “From sequential requests to overlapped execution” comparing a sequential request pipeline with a WebSocket-based approach where multiple requests overlap across validation, preinference, sampling, and postinference stages.
Результаты внедрения оказались впечатляющими. В рабочих условиях модель GPT-5.3-Codex-Spark стабильно выдает 1000 токенов в секунду, а на пиках достигает 4000 токенов в секунду.
Эффект быстро распространился по всей экосистеме разработчиков. Интеграция режима WebSocket в Vercel AI SDK привела к снижению задержек на 40 процентов. Многофайловые процессы в Cline ускорились на 39 процентов, а работа моделей OpenAI в редакторе Cursor стала быстрее на 30 процентов. Это показывает, что оптимизация на уровне инфраструктуры передачи данных имеет критическое значение для конечного пользовательского опыта.
Этот переход демонстрирует важный сдвиг в развитии индустрии искусственного интеллекта. Фокус внимания смещается с чистой скорости самих моделей на оптимизацию систем, которые их обслуживают. По мере дальнейшего аппаратного ускорения вывода, разработчикам инфраструктуры придется искать новые способы минимизации сетевых и вычислительных издержек, чтобы пользователи могли в полной мере ощутить рост производительности.
Переход на постоянные соединения через WebSockets позволил OpenAI устранить узкое место в API и раскрыть потенциал сверхбыстрых моделей, ускорив работу агентов на 40 процентов.
Рост скорости самих нейросетей обесценивается, если транспортные протоколы и архитектура API остаются прежними. Индустрия вынуждена перестраивать базовую инфраструктуру интернета под нужды агентов.