Цикл самоулучшения
Цели урока
После прохождения этого урока вы сможете:
- 1Понять цикл самоулучшения AI-агента: выполнение, обратная связь, анализ, обновление
- 2Узнать о системе Atropos RL в Hermes 4
- 3Научиться логировать и анализировать ошибки для улучшения навыков
Что такое самоулучшение агента
Самоулучшение - это способность AI-агента становиться лучше с каждой выполненной задачей. Обычный чат-бот совершает одну и ту же ошибку бесконечно. Агент с циклом самоулучшения анализирует результаты, выявляет паттерны неудач и обновляет свои навыки. Это ключевое отличие инструмента от напарника.

Пять этапов цикла
Выполнение - агент получает задачу и выполняет ее, используя текущий набор навыков и инструментов
Обратная связь - результат оценивается: автоматически (тесты, метрики) или пользователем (подтверждение, замечания)
Анализ ошибок - агент разбирает, что пошло не так: неверный инструмент, неполный контекст, ошибочная логика
Обновление навыков - на основе анализа агент корректирует свои инструкции, добавляет новые правила, обновляет библиотеку навыков
Применение - обновленные навыки используются в следующей задаче, замыкая цикл
Atropos RL - обучение с подкреплением в Hermes 4
Hermes 4 использует систему Atropos RL - собственный фреймворк NousResearch для обучения с подкреплением. Atropos работает с приблизительно 1000 верификаторов на 60 миллиардах токенов данных. Каждый ответ модели проверяется по множеству критериев: точность, полнота, следование инструкциям, безопасность. На основе этих оценок модель корректирует свое поведение.
Ключевое отличие Atropos от стандартного RLHF (обучения с подкреплением на основе обратной связи от людей) - использование автоматических верификаторов вместо ручной разметки. Это позволяет масштабировать процесс обучения и быстрее итерировать.
Статистика самоулучшения
| Метрика | Значение | Источник |
|---|---|---|
| Ускорение задач после 20+ навыков | 40% быстрее | NousResearch benchmarks |
| Снижение ошибок после 50 сессий | На 35-50% | Данные сообщества |
| Верификаторов в Atropos RL | ~1000 | NousResearch документация |
| Объем обучающих данных Atropos | ~60 миллиардов токенов | NousResearch отчет |
| Время создания нового навыка | 5-15 минут | Средний пользователь |
Autonomous Curator - автоматическая оценка навыков
Начиная с версии 0.12, Hermes Agent включает модуль Autonomous Curator. Это встроенная система, которая автоматически оценивает качество библиотеки навыков агента. Curator анализирует частоту использования навыков, процент успешных выполнений, среднее время и ресурсоемкость. На основе этих данных система предлагает: удалить неиспользуемые навыки, объединить дублирующие, оптимизировать часто используемые.
Лог самоулучшения - практический пример
# Пример лога самоулучшения Hermes Agent
# Файл: data/improvement-log.yaml
session: "2026-06-09-001"
task: "Сгенерировать отчет о продажах за май"
result: partial_success
duration: 45s
feedback:
user_rating: 3/5
issues:
- "Не включил данные по возвратам"
- "Формат таблицы неудобный"
analysis:
root_cause: "Навык report_generator не запрашивает данные о возвратах"
missing_context: "Пользователь ожидает формат с группировкой по категориям"
similar_past_errors: 2
improvement:
action: "update_skill"
skill: "report_generator"
changes:
- "Добавить запрос данных о возвратах в шаблон"
- "Использовать группировку по категориям по умолчанию"
- "Спрашивать формат, если не указан явно"
applied: true
verified: true
# Следующая сессия:
# session: "2026-06-09-002"
# task: "Отчет по продажам за апрель"
# result: success
# user_rating: 5/5
# note: "Автоматически включил возвраты и группировку"Статический бот и самоулучшающийся агент
Цикл самоулучшения может зациклиться: агент пытается исправить ошибку, создает новую, пытается исправить ее и так далее. Всегда устанавливайте лимит итераций (обычно 3-5) и порог качества, при достижении которого цикл останавливается. В конфигурации это параметры max_improvement_iterations и quality_threshold.
Самоулучшение - это не магия, а системный процесс. Агенты с 20+ настроенными навыками выполняют задачи на 40% быстрее, чем в начале работы. Инвестиция в первые 10-20 сессий окупается многократно: вы обучаете напарника, который потом экономит часы вашего времени каждую неделю.
Вопросы для размышления
- •Какие повторяющиеся ошибки в вашей работе мог бы исправить цикл самоулучшения?
- •Сколько навыков понадобилось бы вашему агенту для покрытия 80% ежедневных задач?
