RLHF
Определение
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Простое объяснение
RLHF — как обучение собаки не командами, а реакцией хозяина. Собака делает что-то, хозяин показывает одобрение или неодобрение, и собака постепенно учится вести себя так, как нравится хозяину.
Подробнее
Связанные термины
DPO
Direct Preference Optimization — упрощённая альтернатива RLHF, которая напрямую оптимизирует модель на данных предпочтений без необходимости отдельной reward model.
Few-shot Learning
Few-shot Learning — способность модели выполнять новую задачу, увидев лишь несколько примеров в промпте без дополнительного обучения.
MoE
Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.
Scaling Laws
Scaling Laws — эмпирические закономерности, связывающие производительность модели с её размером, объёмом данных и compute.
