Представьте, что вы пытаетесь услышать шепот в переполненном стадионе. Именно так работает стандартный механизм внимания (Attention) в современных нейросетях: он собирает слишком много шума. Microsoft Research только что выпустила работу, которая меняет правила игры — Differential <a href="/glossary/transformer" class="text-primary hover:underline">Transformer</a> V2.
Суть проблемы классического Трансформера (архитектуры, на которой работают <a href="/glossary/gpt" class="text-primary hover:underline">GPT</a>-4, <a href="/glossary/claude" class="text-primary hover:underline">Claude</a> и Llama) в том, что он часто уделяет внимание нерелевантной информации. Первая версия Differential Transformer пыталась решить это, вычитая «шум» из сигнала, но страдала от нестабильности обучения и требовала специфических настроек (RMSNorm), которые взрывали градиенты на больших масштабах.
В версии V2 Microsoft решила эту проблему элегантно и жестко. Они убрали лишнюю нормализацию (RMSNorm), которая была «костылем» первой версии. Теперь механизм работает по принципу дифференциального усилителя в электронике: нейросеть берет два потока внимания и вычитает один из другого. Это буквально работает как наушники с активным шумоподавлением, но для данных. Результат? Нейросеть перестает отвлекаться на «галлюцинации» и фоновый шум контекста.
Технический прорыв V2 заключается в том, что она устраняет так называемые «attention sinks» (ловушки внимания), когда модель вынуждена уделять внимание бесполезным токенам просто для стабильности. Новая архитектура позволяет снижать уровень шума до абсолютного нуля, чего не мог сделать классический Softmax.
Но самое важное для индустрии — скорость. V2 не требует кастомных ядер (kernels) для видеокарт и использует стандартные оптимизации FlashAttention. Это значит, что внедрить новую архитектуру можно уже сегодня, не переписывая весь стек обучения. Тесты на триллионах токенов показывают: V2 обучается стабильнее, потребляет меньше памяти при генерации и выдает более чистый сигнал, чем стандартный Transformer.
Это тихая революция. Пока <a href="/glossary/openai" class="text-primary hover:underline">OpenAI</a> и Google гонятся за размерами моделей, Microsoft оптимизирует сам «двигатель», делая его эффективнее на фундаментальном уровне. Если V2 станет новым стандартом, мы увидим резкий скачок в качестве работы моделей с длинным контекстом уже в следующем году.