LoRA
Определение
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
Простое объяснение
Представьте, что вам нужно научить огромную энциклопедию новой теме. Вместо переписывания всех томов, вы просто добавляете небольшие стикеры с пометками — это и есть LoRA. Быстро, дёшево и эффективно.
Подробнее
Связанные термины
Speculative Decoding
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Attention Mechanism
Механизм внимания — фундаментальный компонент современных нейросетей, позволяющий модели динамически фокусироваться на релевантных частях входных данных.
Emergent Abilities
Emergent Abilities — способности, которые появляются у моделей только при достижении определённого масштаба и отсутствуют у меньших версий.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
