Шкалирование
Определение
Шкалирование (масштабирование) — увеличение мощности AI-системы для обработки большего объёма запросов и данных.
Простое объяснение
Это когда систему увеличивают, чтобы она могла обслуживать больше пользователей — как расширить ресторан для большего числа гостей.
Подробнее
Типы масштабирования:
- Вертикальное — более мощный сервер
- Горизонтальное — больше серверов
- Auto-scaling — автоматическое по нагрузке
Для AI важно: GPU-кластеры, distributed training, model parallelism.
Связанные термины
Webhook
Вебхук — механизм автоматической отправки данных от одного сервиса другому при наступлении определённого события.
Latency
Латентность — время задержки между отправкой запроса к AI-системе и получением ответа, критичный показатель для пользовательского опыта.
Safetensors
Safetensors — безопасный формат хранения тензоров (весов нейросетей), защищённый от выполнения произвольного кода при загрузке.
TPU
TPU (Tensor Processing Unit) — специализированный AI-ускоритель, разработанный Google для обучения и inference нейронных сетей.
