Reinforcement Learning
Определение
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Простое объяснение
Это когда программа учится методом проб и ошибок: делает что-то, получает «хорошо» или «плохо» и постепенно становится лучше.
Подробнее
Применения RL:
- Игры — AlphaGo, Atari
- Робототехника — управление движением
- RLHF — обучение LLM на feedback
- Рекомендации — персонализация
Компоненты: агент, среда, состояния, действия, награды.
Связанные термины
Фича
Фича (признак, feature) — входной параметр или характеристика данных, используемая ML-моделью для обучения и предсказаний.
Pre-training
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
Глубокое обучение
Подмножество машинного обучения, использующее многослойные нейронные сети для анализа данных.
Deep Learning
Глубокое обучение — подраздел машинного обучения, использующий многослойные нейронные сети для обработки сложных данных и выявления абстрактных паттернов.
