Latency
Определение
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Простое объяснение
Это сколько времени проходит от момента, когда ты задал вопрос AI, до момента, когда начинает появляться ответ.
Подробнее
Факторы латентности в AI:
- Размер модели — больше параметров = медленнее
- Длина генерации — токены генерируются последовательно
- Сетевая задержка — расстояние до сервера
- Очередь — нагрузка на API
Оптимизация: Edge AI, кэширование, streaming, специализированные чипы.
Связанные термины
vLLM
vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.
Vector Database
Векторная база данных — специализированное хранилище для эмбеддингов, оптимизированное для семантического поиска по сходству векторов.
Шкалирование
Шкалирование (масштабирование) — увеличение мощности AI-системы для обработки большего объёма запросов и данных.
Replicate
Replicate — платформа для запуска open-source AI-моделей через API без необходимости управления инфраструктурой.
