Почему AI-агенты на базе GPT-OSS не обучаются?

Инженеры LinkedIn обнаружили, что архитектура Mixture of Experts (MoE) в GPT-OSS ведет себя недетерминировано. Из-за этого один и тот же запрос может направляться к разным «экспертам» при повторном прогоне, что саботирует процесс обучения с подкреплением.

Как MoE архитектура влияет на процесс обучения с подкреплением?

Гейтинг-сеть MoE может направлять данные разным экспертам из-за микроскопических различий в вычислениях, что ломает сравнение «старой» и «новой» политики в алгоритмах вроде PPO. Это приводит к взрыву градиентов и отсутствию роста наград.

Что означает «призрак в машине» применительно к ошибке GPT-OSS?

«Призрак в машине» описывает конфликт между движками для инференса (vLLM, SGLang), оптимизированными под скорость, и движками для тренировки (FSDP), заточенными под точность. Они выдают разные результаты на одних и тех же данных, превращая on-policy обучение в хаос.

Как инженеры LinkedIn решили проблему недетерминированности MoE?

Они применили принудительную синхронизацию log-probabilities, чтобы алгоритм считал маршрутизацию идентичной. Также для изоляции проблемы пришлось временно замораживать слои внимания во время тестов.

Почему это открытие важно для разработчиков AI-агентов на открытых моделях?

Открытие показывает, что нельзя просто брать готовые MoE-модели и доучивать их до агентов стандартными методами RL. Архитектура MoE, экономящая ресурсы на инференсе, становится препятствием для сложного обучения, требуя тщательной проверки графиков loss-функции.

Агенты сходят с ума: LinkedIn вскрыл фатальную ошибку в а...

Пока весь мир ждет GPT-5, в кулуарах open-source разработки разыгралась настоящая драма. LinkedIn, пытаясь превратить модель GPT-OSS в полноценного AI-агента, столкнулся с проблемой, которая ставит под угрозу саму идею обучения агентов на открытых моделях.

Ожидание: Вы берете мощную модель, подключаете Reinforcement Learning (RL), и она учится использовать инструменты, писать код и планировать действия, как OpenAI o3-mini.

Реальность: Градиенты взрываются, награды (rewards) не растут, а модель сходит с ума.

Что пошло не так?

Команда LinkedIn использовала фреймворк verl для обучения GPT-OSS-20B. Задача была простой: научить модель решать задачи (GSM8K, ReTool), используя внешние инструменты. Но графики обучения показали катастрофу.

Расследование привело к шокирующему открытию: архитектура Mixture of Experts (MoE) в GPT-OSS ведет себя недетерминировано.

В алгоритме PPO (Proximal Policy Optimization) критически важно сравнивать «старую» и «новую» политику модели. Но из-за особенностей MoE, один и тот же запрос мог направляться к разным «экспертам» внутри нейросети при повторном прогоне. Математически это означало, что модель «забывала», почему она приняла решение секунду назад.

«Призрак» в машине

Это не просто баг кода, это фундаментальный конфликт между скоростью и точностью:

Проблема маршрутизации: Гейтинг-сеть (gating network) отправляла данные разным экспертам из-за микроскопических различий в вычислениях с плавающей запятой. В итоге отношение вероятностей (importance sampling ratio) улетало от единицы, ломая весь процесс обучения.
Конфликт движков: Оказалось, что движки для инференса (vLLM, SGLang), оптимизированные под скорость, и движки для тренировки (FSDP), заточенные под точность, выдают разные результаты на одних и тех же данных. Это превращало on-policy обучение в off-policy хаос.

Как это починили?

Инженеры применили грубую силу математики:

Принудительная синхронизация: Они жестко зафиксировали log-probabilities, заставляя алгоритм считать, что маршрутизация прошла идентично.
Заморозка внимания: Чтобы изолировать проблему, пришлось даже замораживать слои attention во время тестов.

Почему это важно? LinkedIn показал, что мы не можем просто брать готовые LLM и «доучивать» их до агентов методами 2023 года. Архитектура MoE, которая экономит нам деньги на инференсе, становится главным врагом при сложном RL-обучении. Если вы строите своих агентов на open-source — проверьте свои графики loss-функции. Возможно, ваша модель тоже «лжет» сама себе.

Агенты сходят с ума: LinkedIn вскрыл фатальную ошибку в архитектуре GPT-OSS

Что пошло не так?

«Призрак» в машине

Как это починили?

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Как Braintrust ускоряет разработку с помощью Codex и GPT-5.5

Руководство по оценке передовых ИИ-моделей: новые стандарты от создателей ChatGPT

Агентная организация на практике: как Endava масштабирует экспертизу с помощью Codex

Гайды по теме