FlashAttention
Определение
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Простое объяснение
FlashAttention — как умное чтение большой книги. Вместо того чтобы разложить все страницы на огромном столе, вы читаете по главам, держа в руках только текущую.
Подробнее
Связанные термины
RLHF
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Нейронная сеть
Вычислительная система, вдохновлённая биологическими нейронными сетями мозга, состоящая из слоёв искусственных нейронов.
Жизненный цикл модели
Жизненный цикл ML-модели — этапы от постановки задачи до вывода из эксплуатации: сбор данных, обучение, deployment, мониторинг, обновление.
Emergent Abilities
Emergent Abilities — способности, которые появляются у моделей только при достижении определённого масштаба и отсутствуют у меньших версий.
