DPO
Определение
Direct Preference Optimization — упрощённая альтернатива RLHF, которая напрямую оптимизирует модель на данных предпочтений без необходимости отдельной reward model.
Простое объяснение
Если RLHF — это сложный танец с тремя партнёрами (модель, reward model, RL), то DPO — это простой вальс вдвоём. Результат похожий, но шагов меньше.
Подробнее
Связанные термины
RLHF
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
KV Cache
KV Cache — механизм кэширования ключей (Keys) и значений (Values) в трансформерах для ускорения авторегрессивной генерации.
Модель
Модель в ML — обученный алгоритм, который принимает входные данные и выдаёт предсказания или генерирует результат.
