vLLM
Определение
vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.
Простое объяснение
vLLM — как умный официант в ресторане, который оптимально распределяет заказы между поварами и не заставляет одних клиентов ждать, пока готовится сложное блюдо для других.
Подробнее
Связанные термины
Perplexity AI
Perplexity AI — поисковая система на базе AI, которая отвечает на вопросы с указанием источников вместо списка ссылок.
Voice AI
Голосовой AI — технологии распознавания речи (Speech-to-Text), синтеза речи (Text-to-Speech) и голосовых ассистентов.
Ollama
Ollama — инструмент для простого локального запуска больших языковых моделей одной командой, с поддержкой популярных моделей и API, совместимым с OpenAI.
GPU
Graphics Processing Unit — специализированный процессор, изначально созданный для графики, но оказавшийся идеальным для обучения нейросетей благодаря способности выполнять тысячи параллельных вычислений.
