Quantization
Определение
Квантизация — техника сжатия AI-моделей путём уменьшения точности чисел (например, с 32-bit до 4-bit), ускоряющая инференс и снижающая требования к памяти.
Простое объяснение
Это способ сделать AI-модель меньше и быстрее, немного упростив вычисления — как сжатие фотографии.
Подробнее
Типы квантизации:
- Post-training (PTQ) — после обучения
- Quantization-aware (QAT) — во время обучения
- GPTQ, GGML, AWQ — форматы для LLM
Квантизация позволяет запускать LLM на обычных компьютерах и смартфонах.
Связанные термины
Zero-shot Learning
Zero-shot обучение — способность AI выполнять задачи, на которых модель не обучалась напрямую, используя общие знания и инструкции.
Deep Learning
Глубокое обучение — подраздел машинного обучения, использующий многослойные нейронные сети для обработки сложных данных и выявления абстрактных паттернов.
Machine Learning
Машинное обучение — область AI, в которой алгоритмы обучаются на данных, выявляя закономерности и делая предсказания без явного программирования правил.
Transformer
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
