RLHF

Определение

Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.

Простое объяснение

RLHF — как обучение собаки не командами, а реакцией хозяина. Собака делает что-то, хозяин показывает одобрение или неодобрение, и собака постепенно учится вести себя так, как нравится хозяину.

Подробнее

RLHF — ключевая технология за ChatGPT и Claude. Процесс состоит из трёх этапов: (1) supervised fine-tuning на демонстрациях, (2) обучение reward model на парных сравнениях человеческих оценщиков, (3) оптимизация политики модели с помощью PPO для максимизации reward. Это позволяет моделям генерировать ответы, которые люди считают полезными, честными и безопасными, даже если такое поведение сложно формализовать явно.

Определение

Простое объяснение

Подробнее

Связанные термины

DPO

Few-shot Learning

MoE

Scaling Laws

QLoRA

Pre-training