Агенты сходят с ума: LinkedIn вскрыл фатальную ошибку в архитектуре GPT-OSS
Почему ваши AI-агенты не обучаются, а градиенты взрываются? Инженеры LinkedIn обнаружили, что популярная архитектура MoE буквально саботирует процесс RL-тренировки.
Почему ваши AI-агенты не обучаются, а градиенты взрываются? Инженеры LinkedIn обнаружили, что популярная архитектура MoE буквально саботирует процесс RL-тренировки.
2 мин

Пока весь мир ждет GPT-5, в кулуарах open-source разработки разыгралась настоящая драма. LinkedIn, пытаясь превратить модель GPT-OSS в полноценного AI-агента, столкнулся с проблемой, которая ставит под угрозу саму идею обучения агентов на открытых моделях.
Ожидание: Вы берете мощную модель, подключаете Reinforcement Learning (RL), и она учится использовать инструменты, писать код и планировать действия, как OpenAI o3-mini.
Реальность: Градиенты взрываются, награды (rewards) не растут, а модель сходит с ума.
Команда LinkedIn использовала фреймворк verl для обучения GPT-OSS-20B. Задача была простой: научить модель решать задачи (GSM8K, ReTool), используя внешние инструменты. Но графики обучения показали катастрофу.
Расследование привело к шокирующему открытию: архитектура Mixture of Experts (MoE) в GPT-OSS ведет себя недетерминировано.
В алгоритме PPO (Proximal Policy Optimization) критически важно сравнивать «старую» и «новую» политику модели. Но из-за особенностей MoE, один и тот же запрос мог направляться к разным «экспертам» внутри нейросети при повторном прогоне. Математически это означало, что модель «забывала», почему она приняла решение секунду назад.
Это не просто баг кода, это фундаментальный конфликт между скоростью и точностью:
Инженеры применили грубую силу математики:
Почему это важно? LinkedIn показал, что мы не можем просто брать готовые LLM и «доучивать» их до агентов методами 2023 года. Архитектура MoE, которая экономит нам деньги на инференсе, становится главным врагом при сложном RL-обучении. Если вы строите своих агентов на open-source — проверьте свои графики loss-функции. Возможно, ваша модель тоже «лжет» сама себе.
Архитектура Mixture of Experts (MoE) имеет скрытый дефект для RL-обучения: недетерминированная маршрутизация ломает алгоритм PPO, заставляя градиенты взрываться.
Инструменты оптимизации скорости (vLLM/SGLang) могут быть вредны для обучения: их результаты слишком сильно отличаются от тренировочных движков (FSDP), создавая 'training-inference mismatch'.