FlashAttention
Определение
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Простое объяснение
FlashAttention — как умное чтение большой книги. Вместо того чтобы разложить все страницы на огромном столе, вы читаете по главам, держа в руках только текущую.
Подробнее
Связанные термины
MoE
Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.
Emergent Abilities
Emergent Abilities — способности, которые появляются у моделей только при достижении определённого масштаба и отсутствуют у меньших версий.
QLoRA
Quantized LoRA — усовершенствованная версия LoRA, сочетающая квантизацию модели до 4 бит с адаптацией низкого ранга.
Attention Mechanism
Механизм внимания — фундаментальный компонент современных нейросетей, позволяющий модели динамически фокусироваться на релевантных частях входных данных.
