Суть
Компания OpenAI в партнерстве с AMD, Broadcom, Intel, Microsoft и NVIDIA представила новый сетевой протокол MRC (Multipath Reliable Connection). Спецификация опубликована в открытом доступе через консорциум Open Compute Project (OCP). Главная задача MRC — радикально повысить надежность и скорость передачи данных между видеокартами (GPU) в огромных вычислительных кластерах, устраняя узкие места, которые замедляют обучение передовых моделей искусственного интеллекта.
Контекст
Обучение современных нейросетей требует синхронной работы десятков тысяч графических процессоров. На этом масштабе сеть становится критическим фактором. Традиционные сетевые архитектуры отправляют поток данных по одному маршруту. Если коммутатор выходит из строя или возникает затор, весь процесс обучения может остановиться или потребовать перезапуска с последней контрольной точки.
В суперкомпьютерах отказы оборудования — это постоянный фоновый процесс. Чем больше кластер, тем чаще происходят сбои. Поскольку при синхронном обучении задержка одного пакета данных заставляет простаивать все остальные процессоры, индустрии потребовался принципиально новый подход к проектированию сетей.
Детали
Протокол MRC меняет архитектуру сети на нескольких уровнях. Во-первых, используется концепция многоплоскостных сетей (multi-plane networks). Вместо одного канала связи на 800 Гбит/с интерфейс разделяется на восемь независимых каналов по 100 Гбит/с. Это позволяет объединить до 131 000 GPU всего через два уровня коммутаторов, тогда как традиционный подход потребовал бы трех или четырех уровней.
Во-вторых, применяется технология «распыления пакетов» (packet spraying). Данные одной транзакции больше не идут по одному пути — они разбиваются на пакеты и отправляются одновременно по сотням разных маршрутов. Пакеты могут приходить не по порядку, но они содержат конечный адрес в памяти, что позволяет собирать их на лету.
В-третьих, MRC обеспечивает микросекундную реакцию на сбои. Если протокол замечает потерю пакета, он мгновенно перестает использовать проблемный маршрут. Для борьбы с заторами реализована «обрезка пакетов» (packet trimming): при перегрузке коммутатор удаляет полезную нагрузку, но доставляет заголовок пакета, что вызывает быстрый запрос на повторную передачу без ложного срабатывания об отказе линии.
Анализ
Публикация MRC в качестве открытого стандарта — это часть глобальной стратегии OpenAI по подготовке инфраструктуры для будущих гигантских суперкомпьютеров, таких как проект Stargate. Открывая технологию, компания стимулирует всю индустрию переходить на единые стандарты, что удешевляет производство оборудования и упрощает интеграцию.
Отказ от сложных протоколов динамической маршрутизации (например, BGP) в пользу статической маршрутизации от источника радикально упрощает управление сетью. Коммутаторам больше не нужно выполнять сложные вычисления для перестроения маршрутов — эта задача перекладывается на сетевые интерфейсы самих вычислительных узлов.
Перспектива
Переход на MRC и аналогичные технологии станет стандартом для всех крупных лабораторий, занимающихся искусственным интеллектом. Снижение энергопотребления сети, уменьшение количества промежуточных компонентов и защита от аппаратных сбоев позволят масштабировать вычислительные кластеры до сотен тысяч ускорителей. В конечном итоге это ускорит цикл разработки новых моделей и сделает инфраструктуру ИИ более предсказуемой и устойчивой.