FlashAttention
Определение
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Простое объяснение
FlashAttention — как умное чтение большой книги. Вместо того чтобы разложить все страницы на огромном столе, вы читаете по главам, держа в руках только текущую.
Подробнее
Связанные термины
Reinforcement Learning
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
Neural Network
Нейронная сеть — вычислительная система, вдохновлённая структурой мозга, состоящая из связанных узлов (нейронов), обрабатывающих информацию слоями.
QLoRA
Quantized LoRA — усовершенствованная версия LoRA, сочетающая квантизацию модели до 4 бит с адаптацией низкого ранга.
