vLLM
Определение
vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.
Простое объяснение
vLLM — как умный официант в ресторане, который оптимально распределяет заказы между поварами и не заставляет одних клиентов ждать, пока готовится сложное блюдо для других.
Подробнее
Связанные термины
Шкалирование
Шкалирование (масштабирование) — увеличение мощности AI-системы для обработки большего объёма запросов и данных.
Edge AI
Edge AI — выполнение AI-алгоритмов непосредственно на конечных устройствах (смартфонах, камерах, датчиках) без отправки данных в облако.
Replicate
Replicate — платформа для запуска open-source AI-моделей через API без необходимости управления инфраструктурой.
Voice AI
Голосовой AI — технологии распознавания речи (Speech-to-Text), синтеза речи (Text-to-Speech) и голосовых ассистентов.
