Иерархия инструкций в ИИ: как OpenAI защищает модели от к...

Суть

Компания OpenAI выпустила IH-Challenge — тренировочный набор данных, предназначенный для укрепления иерархии инструкций (Instruction Hierarchy) в больших языковых моделях (LLM). Этот подход решает одну из главных уязвимостей современных нейросетей: неспособность правильно определить, чью команду выполнять, когда инструкции из разных источников противоречат друг другу. В результате повышается защита от внедрения вредоносных промптов (prompt injection) и улучшается управляемость моделей.

Контекст

Современные системы искусственного интеллекта редко работают с одним источником данных. Они получают базовые правила от системы, спецификации от разработчиков продуктов, прямые запросы от пользователей и внешнюю информацию через инструменты (например, при поиске в интернете).

Diagram titled “Safety steering” showing a prompt with a safety system rule and user request flowing to two outcomes: a baseline model response labeled “Unsafe compliance,” and a trained model response labeled “Refusal + safe completion.”

Чтобы ИИ работал безопасно, OpenAI внедрила строгую иерархию доверия: Система > Разработчик > Пользователь > Инструмент. Инструкции с более высоким приоритетом должны выполняться беспрекословно. Если пользователь просит нарушить системное правило, или если веб-страница содержит скрытую команду игнорировать запросы пользователя, модель обязана опираться на высший уровень иерархии. Однако на практике модели часто путаются, что приводит к выдаче запрещенного контента или успешным хакерским атакам.

Детали

Обучить модель соблюдать субординацию оказалось непросто. Стандартное обучение с подкреплением (RL) часто приводит к тому, что модель просто начинает отказывать на любые сложные запросы (избыточные отказы), чтобы гарантированно избежать наказания. Кроме того, использование других нейросетей в качестве судей для оценки ответов вносит элемент субъективности.

Набор данных IH-Challenge решает эти проблемы за счет трех принципов:

Задачи максимально просты для понимания моделью.
Успешность выполнения проверяется объективно с помощью простых скриптов на Python.
В задачах нет лазеек, позволяющих получать высокую оценку за счет постоянных отказов.

Внутренние тесты на модели GPT-5 Mini (версия GPT-5 Mini-R, обученная на новом датасете) показали значительные улучшения. Модель стала на 11-12% лучше разрешать конфликты между пользователем и разработчиком или системой. При этом качество решения математических задач и логических тестов осталось на прежнем высоком уровне.

Diagram titled “Prompt injection” showing a system, user, agent, and tool flow. The baseline model outputs “ACCESS GRANTED,” while the trained model ignores malicious content and returns the correct next scheduled event.

Анализ

Ключевой вывод из этого исследования заключается в том, что обучение на простых, алгоритмически проверяемых примерах конфликтов дает отличный эффект обобщения (generalization). Модель учится самому принципу субординации, а не просто заучивает конкретные сценарии атак.

Это позволяет снизить количество избыточных отказов — показатель успешного избегания ложных срабатываний (overrefusal) улучшился на 21%. Модель понимает, когда запрос действительно нарушает системные правила, а когда он безопасен, даже если сформулирован нестандартно.

Перспектива

По мере того как языковые модели эволюционируют в автономных агентов, способных самостоятельно использовать инструменты и анализировать непроверенные документы в сети, надежная иерархия инструкций становится критическим требованием. Без способности отличать надежные базовые команды от вредоносного шума из интернета, развертывание сложных ИИ-систем в корпоративной среде будет сопряжено с неприемлемыми рисками. Открытый релиз датасета IH-Challenge позволит исследователям по всему миру ускорить работу в этом направлении.