Reinforcement Learning
Определение
Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
Простое объяснение
Это когда программа учится методом проб и ошибок: делает что-то, получает «хорошо» или «плохо» и постепенно становится лучше.
Подробнее
Применения RL:
- Игры — AlphaGo, Atari
- Робототехника — управление движением
- RLHF — обучение LLM на feedback
- Рекомендации — персонализация
Компоненты: агент, среда, состояния, действия, награды.
Связанные термины
Pre-training
Предобучение — начальный этап обучения AI-модели на огромных объёмах неразмеченных данных для формирования базовых знаний и способностей.
FlashAttention
FlashAttention — алгоритм вычисления attention, оптимизированный для GPU, который значительно снижает использование памяти и ускоряет обучение и inference.
LoRA
Low-Rank Adaptation — метод эффективного дообучения больших языковых моделей, который замораживает исходные веса и добавляет небольшие обучаемые матрицы.
Few-shot Learning
Few-shot Learning — способность модели выполнять новую задачу, увидев лишь несколько примеров в промпте без дополнительного обучения.
