Reinforcement Learning
Определение
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Простое объяснение
Это когда программа учится методом проб и ошибок: делает что-то, получает «хорошо» или «плохо» и постепенно становится лучше.
Подробнее
Применения RL:
- Игры — AlphaGo, Atari
- Робототехника — управление движением
- RLHF — обучение LLM на feedback
- Рекомендации — персонализация
Компоненты: агент, среда, состояния, действия, награды.
Связанные термины
NLP
Обработка естественного языка (NLP) — область AI, занимающаяся взаимодействием компьютеров с человеческим языком: понимание, генерация, перевод.
RLHF
Reinforcement Learning from Human Feedback — метод обучения AI-моделей на основе человеческих предпочтений, используемый для выравнивания поведения модели с человеческими ценностями.
Жизненный цикл модели
Жизненный цикл ML-модели — этапы от постановки задачи до вывода из эксплуатации: сбор данных, обучение, deployment, мониторинг, обновление.
LoRA
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
