Speculative Decoding
Определение
Speculative Decoding — метод ускорения inference LLM, где маленькая модель генерирует черновые токены, а большая модель верифицирует их параллельно.
Простое объяснение
Speculative Decoding — как работа главного редактора с младшим. Младший быстро пишет черновик, главный за один просмотр принимает хорошие абзацы и отмечает плохие для переработки.
Подробнее
Связанные термины
LoRA
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
VAE
Variational Autoencoder — генеративная модель, которая учится кодировать данные в компактное латентное пространство и декодировать обратно, используя вероятностный подход.
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Inference
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
