Speculative Decoding
Определение
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Простое объяснение
Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.
Подробнее
Связанные термины
Фича
Фича (признак, feature) — входной параметр или характеристика данных, используемая ML-моделью для обучения и предсказаний.
Нейронная сеть
Вычислительная система, вдохновлённая биологическими нейронными сетями мозга, состоящая из слоёв искусственных нейронов.
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
