Quantization
Определение
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Простое объяснение
Это способ сделать AI-модель меньше и быстрее, немного упростив вычисления — как сжатие фотографии.
Подробнее
Типы квантизации:
- Post-training (PTQ) — после обучения
- Quantization-aware (QAT) — во время обучения
- GPTQ, GGML, AWQ — форматы для LLM
Квантизация позволяет запускать LLM на обычных компьютерах и смартфонах.
Связанные термины
Жизненный цикл модели
Жизненный цикл ML-модели — этапы от постановки задачи до вывода из эксплуатации: сбор данных, обучение, deployment, мониторинг, обновление.
RLHF
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
VAE
Variational Autoencoder — генеративная модель, которая учится кодировать данные в компактное латентное пространство и декодировать обратно, используя вероятностный подход.
Machine Learning
Машинное обучение — область AI, в которой алгоритмы обучаются на данных, выявляя закономерности и делая предсказания без явного программирования правил.
