Суть
Компания OpenAI выпустила IH-Challenge — тренировочный набор данных, предназначенный для укрепления иерархии инструкций (Instruction Hierarchy) в больших языковых моделях (LLM). Этот подход решает одну из главных уязвимостей современных нейросетей: неспособность правильно определить, чью команду выполнять, когда инструкции из разных источников противоречат друг другу. В результате повышается защита от внедрения вредоносных промптов (prompt injection) и улучшается управляемость моделей.
Контекст
Современные системы искусственного интеллекта редко работают с одним источником данных. Они получают базовые правила от системы, спецификации от разработчиков продуктов, прямые запросы от пользователей и внешнюю информацию через инструменты (например, при поиске в интернете).
Diagram titled “Safety steering” showing a prompt with a safety system rule and user request flowing to two outcomes: a baseline model response labeled “Unsafe compliance,” and a trained model response labeled “Refusal + safe completion.”
Чтобы ИИ работал безопасно, OpenAI внедрила строгую иерархию доверия: Система > Разработчик > Пользователь > Инструмент. Инструкции с более высоким приоритетом должны выполняться беспрекословно. Если пользователь просит нарушить системное правило, или если веб-страница содержит скрытую команду игнорировать запросы пользователя, модель обязана опираться на высший уровень иерархии. Однако на практике модели часто путаются, что приводит к выдаче запрещенного контента или успешным хакерским атакам.
Детали
Обучить модель соблюдать субординацию оказалось непросто. Стандартное обучение с подкреплением (RL) часто приводит к тому, что модель просто начинает отказывать на любые сложные запросы (избыточные отказы), чтобы гарантированно избежать наказания. Кроме того, использование других нейросетей в качестве судей для оценки ответов вносит элемент субъективности.
Набор данных IH-Challenge решает эти проблемы за счет трех принципов:
- Задачи максимально просты для понимания моделью.
- Успешность выполнения проверяется объективно с помощью простых скриптов на Python.
- В задачах нет лазеек, позволяющих получать высокую оценку за счет постоянных отказов.
Внутренние тесты на модели GPT-5 Mini (версия GPT-5 Mini-R, обученная на новом датасете) показали значительные улучшения. Модель стала на 11-12% лучше разрешать конфликты между пользователем и разработчиком или системой. При этом качество решения математических задач и логических тестов осталось на прежнем высоком уровне.
Diagram titled “Prompt injection” showing a system, user, agent, and tool flow. The baseline model outputs “ACCESS GRANTED,” while the trained model ignores malicious content and returns the correct next scheduled event.
Анализ
Ключевой вывод из этого исследования заключается в том, что обучение на простых, алгоритмически проверяемых примерах конфликтов дает отличный эффект обобщения (generalization). Модель учится самому принципу субординации, а не просто заучивает конкретные сценарии атак.
Это позволяет снизить количество избыточных отказов — показатель успешного избегания ложных срабатываний (overrefusal) улучшился на 21%. Модель понимает, когда запрос действительно нарушает системные правила, а когда он безопасен, даже если сформулирован нестандартно.
Перспектива
По мере того как языковые модели эволюционируют в автономных агентов, способных самостоятельно использовать инструменты и анализировать непроверенные документы в сети, надежная иерархия инструкций становится критическим требованием. Без способности отличать надежные базовые команды от вредоносного шума из интернета, развертывание сложных ИИ-систем в корпоративной среде будет сопряжено с неприемлемыми рисками. Открытый релиз датасета IH-Challenge позволит исследователям по всему миру ускорить работу в этом направлении.