Inference
Определение
Инференс — процесс получения предсказаний или результатов от обученной AI-модели на новых входных данных.
Простое объяснение
Это момент, когда AI применяет всё, чему научился, чтобы дать тебе ответ — как когда ты используешь знания на контрольной.
Подробнее
Инференс vs обучение:
- Обучение — создание модели (дорого, долго)
- Инференс — использование модели (быстро, дёшево)
Оптимизация инференса: квантизация, pruning, distillation, специализированные чипы (TPU, NPU).
Связанные термины
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
Глубокое обучение
Подмножество машинного обучения, использующее многослойные нейронные сети для анализа данных.
KV Cache
KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.
Transformer
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
