FlashAttention
Определение
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Простое объяснение
FlashAttention — как умное чтение большой книги. Вместо того чтобы разложить все страницы на огромном столе, вы читаете по главам, держа в руках только текущую.
Подробнее
Связанные термины
NLP
Обработка естественного языка (NLP) — область AI, занимающаяся взаимодействием компьютеров с человеческим языком: понимание, генерация, перевод.
Emergent Abilities
Emergent Abilities — способности, которые появляются у моделей только при достижении определённого масштаба и отсутствуют у меньших версий.
KV Cache
KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.
Machine Learning
Машинное обучение — область AI, в которой алгоритмы обучаются на данных, выявляя закономерности и делая предсказания без явного программирования правил.
