vLLM
Определение
vLLM — высокопроизводительная библиотека для inference больших языковых моделей, использующая PagedAttention для эффективного управления памятью GPU.
Простое объяснение
vLLM — как умный официант в ресторане, который оптимально распределяет заказы между поварами и не заставляет одних клиентов ждать, пока готовится сложное блюдо для других.
Подробнее
Связанные термины
GGUF
GGUF (GPT-Generated Unified Format) — формат файлов для хранения квантизированных языковых моделей, оптимизированный для локального запуска через llama.cpp.
API (Application Programming Interface)
Интерфейс программирования приложений — набор правил и протоколов для взаимодействия между различными программами и сервисами.
LangChain
LangChain — популярный open-source фреймворк для создания приложений на базе LLM, предоставляющий абстракции для chains, agents, RAG и memory.
HuggingFace
HuggingFace — ведущая платформа для машинного обучения, предоставляющая хаб моделей, датасетов и библиотеки transformers, datasets, accelerate.
