Что такое WebRTC и как его использует OpenAI?

WebRTC — это открытый стандарт для передачи аудио и видео данных с минимальной задержкой. OpenAI использует его для обеспечения естественного голосового общения своих ИИ-моделей, таких как ChatGPT, обрабатывая установление соединения, шифрование и компенсацию сетевых задержек.

Почему OpenAI пришлось перестраивать архитектуру WebRTC?

Традиционные архитектуры WebRTC не подходили для масштабов OpenAI с сотнями миллионов пользователей и диалогами один на один. Они требовали слишком много открытых сетевых портов, что было небезопасно, сложно в управлении и плохо масштабировалось в облачной среде Kubernetes.

Как OpenAI решила проблему задержек в голосовом ИИ?

OpenAI решила проблему задержек, внедрив новую архитектуру «ретранслятор плюс приемопередатчик». Это позволило разделить маршрутизацию пакетов и обработку протоколов, оптимизировав передачу данных и масштабирование голосовых сервисов в облачной инфраструктуре.

Что представляет собой архитектура «ретранслятор плюс приемопередатчик»?

Это архитектура, где «ретранслятор» — это легкий сервис для пересылки данных из интернета через минимальное количество портов, а «приемопередатчик» — внутренний сервис, обрабатывающий состояние сессии, шифрование и взаимодействующий напрямую с нейросетями. Такое разделение оптимизирует масштабирование и безопасность.

Какое значение имеет решение OpenAI для индустрии голосового ИИ?

Решение OpenAI демонстрирует, как инфраструктура ИИ меняет классические сетевые технологии, позволяя обрабатывать звук непрерывным потоком. Этот подход, вероятно, станет эталонным паттерном для других компаний, разрабатывающих масштабируемые системы голосового ИИ в реальном времени.

Архитектура голосового ИИ от OpenAI: как компания решила ...

Суть

Компания OpenAI представила обновленную архитектуру своей сети, которая позволяет голосовым моделям общаться с пользователями в реальном времени, без неловких пауз и задержек. Инженеры перестроили стек WebRTC, разделив маршрутизацию пакетов и обработку протоколов. Это техническое решение критически важно для работы голосового режима ChatGPT и нового программного интерфейса (Realtime API) в масштабах сотен миллионов пользователей.

Контекст

Голосовой искусственный интеллект воспринимается естественно только тогда, когда беседа идет со скоростью обычной человеческой речи. Для достижения этого OpenAI использует WebRTC — открытый стандарт для передачи аудио и видео с низкой задержкой. Он берет на себя сложные задачи: установление соединения, шифрование и компенсацию задержек в сети.

Однако традиционные архитектуры WebRTC создавались для видеоконференций. Обычно сервер выделяет отдельный сетевой порт для каждой сессии или использует единый сервер пересылки (SFU) для групповых звонков. Для инфраструктуры OpenAI, где еженедельно активно более 900 миллионов пользователей, а большинство сессий — это диалог один на один с моделью, классические подходы перестали работать.

The sequence diagram shows how the connection is established

Детали

Главная проблема заключалась в интеграции WebRTC с Kubernetes — системой управления контейнерами, на которой работает инфраструктура OpenAI. Классическая модель "один порт на сессию" требует открытия десятков тысяч публичных портов, что сложно балансировать, небезопасно и плохо поддается автоматическому масштабированию.

Чтобы решить эту задачу, инженеры OpenAI внедрили архитектуру "ретранслятор плюс приемопередатчик" (split relay plus transceiver):

Ретранслятор (Relay): Легкий уровень пересылки данных, который принимает трафик из интернета через минимальное количество публичных портов. Он не разбирает сложную логику, а лишь направляет пакеты дальше.
Приемопередатчик (Transceiver): Внутренний сервис, который хранит состояние сессии, ключи шифрования и связывается напрямую с серверами, где работают нейросети (для транскрибации, генерации речи и логики).

Такое разделение позволило сохранить стандартное поведение для устройств пользователей, но полностью изменило маршрутизацию внутри серверов компании.

An open-source spec for orchestration: Symphony > art card

Анализ

Этот шаг демонстрирует важный сдвиг в индустрии. Инфраструктура для искусственного интеллекта начинает диктовать свои правила классическим сетевым технологиям. Моделям нужно обрабатывать звук непрерывным потоком: нейросеть должна начинать "думать" и генерировать ответ еще до того, как человек закончит фразу.

Централизация управления сессиями через внутренние приемопередатчики позволила OpenAI масштабировать голосовые сервисы так же гибко, как обычные текстовые веб-приложения, обойдя фундаментальные ограничения протокола WebRTC при работе в облачных средах.

Перспектива

По мере того как голосовые агенты будут внедряться в клиентскую поддержку, образование и повседневные приложения, проблема сетевых задержек станет актуальной для всего рынка. Решение OpenAI, вероятно, станет эталонным паттерном (шаблоном проектирования) для других компаний, строящих собственные системы голосового ИИ в реальном времени. Время покажет, будут ли эти подходы стандартизированы на уровне открытого исходного кода для более широкого применения в индустрии.