Что такое протокол MRC и для чего он нужен?

Протокол Multipath Reliable Connection (MRC) — это транспортный протокол удаленного прямого доступа к памяти (RDMA), который позволяет распределять сетевой трафик по множеству путей одновременно. Он создан для повышения надежности и эффективности сетей в масштабных кластерах ИИ.

Какую проблему в обучении ИИ решает протокол MRC?

MRC решает критическую проблему простоев и замедлений в фабриках ИИ, возникающих из-за сбоев или задержек на отдельных сетевых маршрутах. Он обеспечивает непрерывный и синхронный обмен данными между тысячами GPU, предотвращая остановку всего кластера.

Почему NVIDIA сделала протокол MRC открытым стандартом?

NVIDIA передала MRC в Open Compute Project, чтобы сделать его открытым отраслевым стандартом. Это стратегический шаг, позволяющий всей индустрии совместно решать проблему узких мест в сетевой инфраструктуре для масштабного обучения ИИ.

Какие ключевые технические особенности имеет протокол MRC?

Ключевые особенности MRC включают аппаратный обход сбоев сети за микросекунды, динамическую балансировку нагрузки для оптимальной пропускной способности GPU и интеллектуальное восстановление потерянных данных. Это минимизирует влияние сетевых проблем на вычислительные процессы.

Какие компании уже используют технологию MRC?

Технология MRC уже доказала свою эффективность и используется ведущими компаниями. Среди них OpenAI, Microsoft в своем дата-центре Fairwater и Oracle в инфраструктуре Abilene, которые применяют протокол для обучения передовых моделей ИИ.

NVIDIA открывает протокол MRC: новый сетевой стандарт для...

Суть

Компании NVIDIA, Microsoft, OpenAI, а также AMD, Broadcom и Intel объединили усилия, чтобы сделать технологию Multipath Reliable Connection (MRC) открытым отраслевым стандартом. Протокол передан в организацию Open Compute Project в виде открытой спецификации. Этот шаг фундаментально меняет подход к построению сетевой инфраструктуры для масштабного обучения искусственного интеллекта.

Контекст

Гонка за созданием самых мощных фабрик ИИ (AI factories) выявила критическую проблему: вычислительные мощности развиваются быстрее, чем сети, которые их объединяют.

Когда компания обучает передовую большую языковую модель (LLM) на десятках тысяч графических процессоров (GPU), чипы должны непрерывно и синхронно обмениваться огромными массивами данных. Если на одном из сетевых маршрутов возникает задержка или кратковременный сбой, весь кластер может приостановить работу. В масштабах суперкомпьютера даже миллисекундный простой оборачивается колоссальными финансовыми потерями и увеличением времени обучения.

Традиционные сетевые протоколы были рассчитаны на классические центры обработки данных, а не на специфические и крайне интенсивные нагрузки ИИ.

Изображение из источника

Детали

MRC — это транспортный протокол удаленного прямого доступа к памяти (RDMA). Его главная задача — позволить одному соединению распределять трафик по множеству доступных сетевых путей одновременно.

Разработчики приводят точную аналогию. Представьте, что вместо одной широкой дороги, которая может быть заблокирована из-за аварии, вы используете разветвленную сеть улиц в сочетании с умным навигатором. Этот навигатор в реальном времени перенаправляет поток данных в обход любых заторов.

Ключевые технические особенности MRC:

Аппаратный обход сбоев: протокол способен обнаружить отказ сетевого пути и перенаправить трафик на уровне оборудования всего за несколько микросекунд.
Динамическая балансировка: система распределяет нагрузку так, чтобы каждый GPU получал необходимую пропускную способность без перегрузки отдельных узлов.
Точное восстановление: при потере данных происходит интеллектуальная повторная передача, минимизирующая влияние на длительные вычислительные процессы.

Технология была изначально оптимизирована и проверена на аппаратной платформе NVIDIA Spectrum-X Ethernet.

Анализ

NVIDIA and ServiceNow Partner on New Autonomous AI Agents for Enterprises

Перевод MRC в статус открытого стандарта — это стратегический шаг для всей индустрии. Тот факт, что над протоколом совместно работали прямые конкуренты (NVIDIA, AMD, Intel), говорит о серьезности проблемы. Узким местом индустрии стали не сами чипы, а способность заставить их работать как единый механизм.

Технология уже доказала свою эффективность на практике. OpenAI использует MRC в связке с поколением архитектуры Blackwell, отмечая, что это позволило избежать типичных сетевых прерываний. Microsoft внедрила технологию в своем дата-центре Fairwater, а Oracle — в инфраструктуре Abilene. Это одни из крупнейших в мире площадок, специально созданных для обучения передовых моделей.

Перспектива

По мере того как индустрия движется к кластерам, насчитывающим сотни тысяч GPU, архитектура сетей будет усложняться.

Уже сейчас OpenAI применяет MRC в сочетании с мультипланарными сетями (multiplane networks) — когда создается несколько независимых сетевых плоскостей для обеспечения резервных путей связи. Аппаратное ускорение балансировки в таких сетях позволяет масштабировать системы без потери производительности и с предсказуемо низкой задержкой.

Сеть будущего для ИИ должна быть не просто быстрой. Она обязана быть интеллектуальной, устойчивой к сбоям и основанной на открытых стандартах, чтобы заказчики могли гибко выбирать оборудование. Открытие спецификации MRC — важный шаг к формированию такого фундамента.