Архитектура голосового ИИ от OpenAI: как компания решила проблему задержек при масштабировании
OpenAI полностью перестроила свой стек WebRTC, чтобы обеспечить голосовое общение с ИИ в реальном времени без задержек для сотен миллионов пользователей.
OpenAI полностью перестроила свой стек WebRTC, чтобы обеспечить голосовое общение с ИИ в реальном времени без задержек для сотен миллионов пользователей.
3 мин

Компания OpenAI представила обновленную архитектуру своей сети, которая позволяет голосовым моделям общаться с пользователями в реальном времени, без неловких пауз и задержек. Инженеры перестроили стек WebRTC, разделив маршрутизацию пакетов и обработку протоколов. Это техническое решение критически важно для работы голосового режима ChatGPT и нового программного интерфейса (Realtime API) в масштабах сотен миллионов пользователей.
Голосовой искусственный интеллект воспринимается естественно только тогда, когда беседа идет со скоростью обычной человеческой речи. Для достижения этого OpenAI использует WebRTC — открытый стандарт для передачи аудио и видео с низкой задержкой. Он берет на себя сложные задачи: установление соединения, шифрование и компенсацию задержек в сети.
Однако традиционные архитектуры WebRTC создавались для видеоконференций. Обычно сервер выделяет отдельный сетевой порт для каждой сессии или использует единый сервер пересылки (SFU) для групповых звонков. Для инфраструктуры OpenAI, где еженедельно активно более 900 миллионов пользователей, а большинство сессий — это диалог один на один с моделью, классические подходы перестали работать.

The sequence diagram shows how the connection is established
Главная проблема заключалась в интеграции WebRTC с Kubernetes — системой управления контейнерами, на которой работает инфраструктура OpenAI. Классическая модель "один порт на сессию" требует открытия десятков тысяч публичных портов, что сложно балансировать, небезопасно и плохо поддается автоматическому масштабированию.
Чтобы решить эту задачу, инженеры OpenAI внедрили архитектуру "ретранслятор плюс приемопередатчик" (split relay plus transceiver):
Такое разделение позволило сохранить стандартное поведение для устройств пользователей, но полностью изменило маршрутизацию внутри серверов компании.

An open-source spec for orchestration: Symphony > art card
Этот шаг демонстрирует важный сдвиг в индустрии. Инфраструктура для искусственного интеллекта начинает диктовать свои правила классическим сетевым технологиям. Моделям нужно обрабатывать звук непрерывным потоком: нейросеть должна начинать "думать" и генерировать ответ еще до того, как человек закончит фразу.
Централизация управления сессиями через внутренние приемопередатчики позволила OpenAI масштабировать голосовые сервисы так же гибко, как обычные текстовые веб-приложения, обойдя фундаментальные ограничения протокола WebRTC при работе в облачных средах.
По мере того как голосовые агенты будут внедряться в клиентскую поддержку, образование и повседневные приложения, проблема сетевых задержек станет актуальной для всего рынка. Решение OpenAI, вероятно, станет эталонным паттерном (шаблоном проектирования) для других компаний, строящих собственные системы голосового ИИ в реальном времени. Время покажет, будут ли эти подходы стандартизированы на уровне открытого исходного кода для более широкого применения в индустрии.
OpenAI перепроектировала сетевую архитектуру WebRTC, чтобы обеспечить мгновенный голосовой ответ ИИ в масштабах миллионов пользователей, обойдя ограничения облачных систем.
Для создания естественного голосового ИИ компании пришлось не просто улучшать нейросети, а переизобретать базовые принципы маршрутизации интернет-трафика внутри своих дата-центров.