NVIDIA открывает протокол MRC: новый сетевой стандарт для фабрик ИИ
NVIDIA совместно с лидерами индустрии передала протокол Multipath Reliable Connection в Open Compute Project. Это решает проблему простоев GPU при обучении гигантских ИИ-моделей.
NVIDIA совместно с лидерами индустрии передала протокол Multipath Reliable Connection в Open Compute Project. Это решает проблему простоев GPU при обучении гигантских ИИ-моделей.
3 мин

Компании NVIDIA, Microsoft, OpenAI, а также AMD, Broadcom и Intel объединили усилия, чтобы сделать технологию Multipath Reliable Connection (MRC) открытым отраслевым стандартом. Протокол передан в организацию Open Compute Project в виде открытой спецификации. Этот шаг фундаментально меняет подход к построению сетевой инфраструктуры для масштабного обучения искусственного интеллекта.
Гонка за созданием самых мощных фабрик ИИ (AI factories) выявила критическую проблему: вычислительные мощности развиваются быстрее, чем сети, которые их объединяют.
Когда компания обучает передовую большую языковую модель (LLM) на десятках тысяч графических процессоров (GPU), чипы должны непрерывно и синхронно обмениваться огромными массивами данных. Если на одном из сетевых маршрутов возникает задержка или кратковременный сбой, весь кластер может приостановить работу. В масштабах суперкомпьютера даже миллисекундный простой оборачивается колоссальными финансовыми потерями и увеличением времени обучения.
Традиционные сетевые протоколы были рассчитаны на классические центры обработки данных, а не на специфические и крайне интенсивные нагрузки ИИ.

Изображение из источника
MRC — это транспортный протокол удаленного прямого доступа к памяти (RDMA). Его главная задача — позволить одному соединению распределять трафик по множеству доступных сетевых путей одновременно.
Разработчики приводят точную аналогию. Представьте, что вместо одной широкой дороги, которая может быть заблокирована из-за аварии, вы используете разветвленную сеть улиц в сочетании с умным навигатором. Этот навигатор в реальном времени перенаправляет поток данных в обход любых заторов.
Ключевые технические особенности MRC:
Технология была изначально оптимизирована и проверена на аппаратной платформе NVIDIA Spectrum-X Ethernet.

NVIDIA and ServiceNow Partner on New Autonomous AI Agents for Enterprises
Перевод MRC в статус открытого стандарта — это стратегический шаг для всей индустрии. Тот факт, что над протоколом совместно работали прямые конкуренты (NVIDIA, AMD, Intel), говорит о серьезности проблемы. Узким местом индустрии стали не сами чипы, а способность заставить их работать как единый механизм.
Технология уже доказала свою эффективность на практике. OpenAI использует MRC в связке с поколением архитектуры Blackwell, отмечая, что это позволило избежать типичных сетевых прерываний. Microsoft внедрила технологию в своем дата-центре Fairwater, а Oracle — в инфраструктуре Abilene. Это одни из крупнейших в мире площадок, специально созданных для обучения передовых моделей.
По мере того как индустрия движется к кластерам, насчитывающим сотни тысяч GPU, архитектура сетей будет усложняться.
Уже сейчас OpenAI применяет MRC в сочетании с мультипланарными сетями (multiplane networks) — когда создается несколько независимых сетевых плоскостей для обеспечения резервных путей связи. Аппаратное ускорение балансировки в таких сетях позволяет масштабировать системы без потери производительности и с предсказуемо низкой задержкой.
Сеть будущего для ИИ должна быть не просто быстрой. Она обязана быть интеллектуальной, устойчивой к сбоям и основанной на открытых стандартах, чтобы заказчики могли гибко выбирать оборудование. Открытие спецификации MRC — важный шаг к формированию такого фундамента.
NVIDIA сделала сетевой протокол MRC открытым стандартом, чтобы обеспечить стабильную работу кластеров из десятков тысяч GPU и предотвратить их простой из-за сетевых сбоев.
Сотрудничество прямых конкурентов (NVIDIA, AMD, Intel) над общим стандартом показывает, что главным барьером для масштабирования ИИ сейчас является не вычислительная мощность чипов, а сетевая инфраструктура.