Scaling Laws

Kaplan et al. (OpenAI, 2020) и Hoffmann et al. (DeepMind, Chinchilla, 2022) установили предсказуемые отношения: loss ~ N^(-α) × D^(-β) × C^(-γ), где N — параметры, D — данные, C — compute. Chinchilla показал, что многие модели недообучены: нужно больше данных относительно размера. Scaling laws объясняют, почему компании инвестируют в огромные модели — улучшения предсказуемы. Однако есть пределы: данные конечны, compute дорог, emergenence непредсказуем.

Определение

Простое объяснение

Подробнее

Связанные термины

Deep Learning

Quantization

Zero-shot Learning

Машинное обучение

Latent Space

CLIP