Latency
Определение
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Простое объяснение
Это сколько времени проходит от момента, когда ты задал вопрос AI, до момента, когда начинает появляться ответ.
Подробнее
Факторы латентности в AI:
- Размер модели — больше параметров = медленнее
- Длина генерации — токены генерируются последовательно
- Сетевая задержка — расстояние до сервера
- Очередь — нагрузка на API
Оптимизация: Edge AI, кэширование, streaming, специализированные чипы.
Связанные термины
Vector Database
Векторная база данных — специализированное хранилище для эмбеддингов, оптимизированное для семантического поиска по сходству векторов.
AI Coding Assistant
AI Coding Assistant — инструмент на базе LLM, помогающий программистам писать, отлаживать и объяснять код.
Webhook
Вебхук — механизм автоматической отправки данных от одного сервиса другому при наступлении определённого события.
Jupyter Notebook
Jupyter Notebook — интерактивная среда разработки для анализа данных и машинного обучения, позволяющая комбинировать код, визуализации и текст.
