MoE

Определение

Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.

Простое объяснение

MoE — как большая больница с узкими специалистами. Вместо одного врача, который знает всё понемногу, есть множество экспертов, и ресепшн направляет вас к нужному в зависимости от вашей проблемы.

Подробнее

MoE позволяет масштабировать модели до триллионов параметров при сохранении разумных вычислительных затрат. GPT-4 и Mixtral используют эту архитектуру. Для каждого токена активируется лишь часть экспертов (обычно 2 из 8), что обеспечивает sparse computation. Gating network учится направлять разные типы запросов к разным экспертам, создавая неявную специализацию: один эксперт может хорошо работать с кодом, другой — с математикой.

Определение

Простое объяснение

Подробнее

Связанные термины

Нейронная сеть

Adapter

Scaling Laws

NLP

Модель

VAE