Latency
Определение
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Простое объяснение
Это сколько времени проходит от момента, когда ты задал вопрос AI, до момента, когда начинает появляться ответ.
Подробнее
Факторы латентности в AI:
- Размер модели — больше параметров = медленнее
- Длина генерации — токены генерируются последовательно
- Сетевая задержка — расстояние до сервера
- Очередь — нагрузка на API
Оптимизация: Edge AI, кэширование, streaming, специализированные чипы.
Связанные термины
GPU
Graphics Processing Unit — специализированный процессор, изначально созданный для графики, но оказавшийся идеальным для обучения нейросетей благодаря способности выполнять тысячи параллельных вычислений.
ChatGPT
ChatGPT — разговорный AI-ассистент от OpenAI на базе моделей GPT, способный вести диалог, отвечать на вопросы, писать тексты и код.
GGUF
GGUF (GPT-Generated Unified Format) — формат файлов для хранения квантизированных языковых моделей, оптимизированный для локального запуска через llama.cpp.
Jupyter Notebook
Jupyter Notebook — интерактивная среда разработки для анализа данных и машинного обучения, позволяющая комбинировать код, визуализации и текст.
