Quantization
Определение
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Простое объяснение
Это способ сделать AI-модель меньше и быстрее, немного упростив вычисления — как сжатие фотографии.
Подробнее
Типы квантизации:
- Post-training (PTQ) — после обучения
- Quantization-aware (QAT) — во время обучения
- GPTQ, GGML, AWQ — форматы для LLM
Квантизация позволяет запускать LLM на обычных компьютерах и смартфонах.
Связанные термины
RLHF
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Transfer Learning
Трансфер обучения — перенос знаний, полученных моделью на одной задаче, для решения другой, родственной задачи, ускоряя обучение и улучшая результаты.
Машинное обучение
Подраздел AI, где алгоритмы учатся на данных и улучшают свои результаты без явного программирования.
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
