KV Cache

При генерации текста трансформер должен вычислять attention со всеми предыдущими токенами. Без кэширования это O(n²) операций для каждого нового токена. KV Cache сохраняет вычисленные K и V для всех предыдущих токенов, позволяя вычислять attention только для нового токена. Это критически важно для быстрой генерации, но требует памяти, пропорциональной длине контекста. Оптимизации KV Cache (PagedAttention, sliding window) — активная область исследований.

Определение

Простое объяснение

Подробнее

Связанные термины

Neural Network

Emergent Abilities

Жизненный цикл модели

Fine-tuning

DPO

Speculative Decoding