MoE
Определение
Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.
Простое объяснение
MoE — как большая больница с узкими специалистами. Вместо одного врача, который знает всё понемногу, есть множество экспертов, и ресепшн направляет вас к нужному в зависимости от вашей проблемы.
Подробнее
Связанные термины
Жизненный цикл модели
Жизненный цикл ML-модели — этапы от постановки задачи до вывода из эксплуатации: сбор данных, обучение, deployment, мониторинг, обновление.
Fine-tuning
Дообучение — процесс адаптации предобученной AI-модели к конкретной задаче или домену путём дополнительного обучения на специализированных данных.
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Emergent Abilities
Emergent Abilities — способности, которые появляются у моделей только при достижении определённого масштаба и отсутствуют у меньших версий.
