Quantization
Определение
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Простое объяснение
Это способ сделать AI-модель меньше и быстрее, немного упростив вычисления — как сжатие фотографии.
Подробнее
Типы квантизации:
- Post-training (PTQ) — после обучения
- Quantization-aware (QAT) — во время обучения
- GPTQ, GGML, AWQ — форматы для LLM
Квантизация позволяет запускать LLM на обычных компьютерах и смартфонах.
Связанные термины
Machine Learning
Машинное обучение — область AI, в которой алгоритмы обучаются на данных, выявляя закономерности и делая предсказания без явного программирования правил.
Few-shot Learning
Few-shot Learning — способность модели выполнять новую задачу, увидев лишь несколько примеров в промпте без дополнительного обучения.
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
Transfer Learning
Трансфер обучения — перенос знаний, полученных моделью на одной задаче, для решения другой, родственной задачи, ускоряя обучение и улучшая результаты.
