DPO
Определение
Direct Preference Optimization — упрощённая альтернатива RLHF, которая напрямую оптимизирует модель на данных предпочтений без необходимости отдельной reward model.
Простое объяснение
Если RLHF — это сложный танец с тремя партнёрами (модель, reward model, RL), то DPO — это простой вальс вдвоём. Результат похожий, но шагов меньше.
Подробнее
Связанные термины
Machine Learning
Машинное обучение — область AI, в которой алгоритмы обучаются на данных, выявляя закономерности и делая предсказания без явного программирования правил.
Adapter
Адаптер — небольшой обучаемый модуль, встраиваемый между слоями предобученной модели для её адаптации под новые задачи без изменения основных весов.
Глубокое обучение
Подмножество машинного обучения, использующее многослойные нейронные сети для анализа данных.
Transformer
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
