Speculative Decoding
Определение
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Простое объяснение
Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.
Подробнее
Связанные термины
Zero-shot Learning
Zero-shot обучение — способность AI выполнять задачи, на которых модель не обучалась напрямую, используя общие знания и инструкции.
Quantization
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Pre-training
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
PEFT
Parameter-Efficient Fine-Tuning — семейство методов дообучения моделей, которые обновляют лишь малую часть параметров, сохраняя качество полного fine-tuning.
