vLLM

Определение

vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.

Простое объяснение

vLLM — как умный официант в ресторане, который оптимально распределяет заказы между поварами и не заставляет одних клиентов ждать, пока готовится сложное блюдо для других.

Подробнее

vLLM решает главную проблему LLM inference — неэффективное использование памяти GPU из-за динамического размера KV cache. PagedAttention разбивает KV cache на блоки фиксированного размера и управляет ими как страницами виртуальной памяти. Это даёт 2-24x рост пропускной способности по сравнению с HuggingFace Transformers. vLLM поддерживает continuous batching, tensor parallelism и служит бэкендом для многих production deployment.

Определение

Простое объяснение

Подробнее

Связанные термины

GPU

Ollama

Kubernetes

OpenAI

MLOps

Safetensors