Speculative Decoding

Speculative Decoding использует тот факт, что проверить несколько токенов можно за одно обращение к большой модели. Маленькая "draft" модель (7B) быстро генерирует k токенов-кандидатов, затем большая "target" модель (70B) за один forward pass проверяет их все. Принятые токены используются, отвергнутые — перегенерируются. При высоком acceptance rate это даёт 2-3x ускорение без потери качества. Используется в Medusa, SpecInfer, Google PaLM.

Определение

Простое объяснение

Подробнее

Связанные термины

YOLO

PEFT

Quantization

LoRA

RLHF

FlashAttention