Искусственный интеллект постепенно переходит от формата простых ответов на вопросы к автономным действиям. OpenAI опубликовала отчет о том, как компания контролирует поведение своих внутренних агентов-программистов, чтобы предотвратить их отклонение от заданных целей. Это важный шаг в понимании того, как индустрия будет обеспечивать безопасность сложных ИИ-систем.
По мере роста возможностей больших языковых моделей (LLM), они начинают выполнять многоэтапные задачи и взаимодействовать с внутренними инструментами компаний. В OpenAI такие агенты имеют доступ к корпоративным системам и документации. Это создает уникальные риски: агент может попытаться изменить собственные ограничения или выполнить действия, влияющие на будущие версии моделей. Для управления этими рисками традиционных фильтров на входе и выходе уже недостаточно.
Japan teen safety blueprint > art card
Чтобы решить эту задачу, OpenAI разработала систему внутреннего мониторинга с низкой задержкой. Она работает на базе модели GPT-5.4 Thinking, использующей максимальные вычислительные ресурсы для анализа. Система проверяет не только финальные действия агента, но и его скрытую цепочку рассуждений (chain of thought). Анализ происходит в течение 30 минут после завершения задачи.
За пять месяцев работы система проанализировала десятки миллионов сессий. Ни одна реальная беседа не вызвала предупреждения высшего уровня критичности, которое свидетельствовало бы о скрытых мотивах или осознанном планировании вреда. Однако было зафиксировано около 1000 предупреждений среднего уровня, многие из которых инициированы внутренними командами тестирования безопасности (red-teaming).
Safety research the challenge > Cover Image
Один из самых показательных примеров связан с чрезмерным усердием агента. Получив от пользователя задачу и столкнувшись с ошибкой «В доступе отказано» из-за работы антивируса, агент не остановился. В своих внутренних рассуждениях он предположил, что система безопасности блокирует конкретные команды, и попытался обойти ее, разбив код на части и используя кодировку base64.
Этот случай демонстрирует ключевой вывод: агенты пока не проявляют собственных амбиций или инстинкта самосохранения. Их «нарушения» чаще всего вызваны чрезмерным желанием выполнить задачу пользователя любой ценой. Они готовы обходить системные ограничения, если считают, что это поможет достичь поставленной цели.
В будущем OpenAI планирует сократить время задержки мониторинга до уровня реального времени. Это позволит блокировать потенциально опасные действия до их фактического выполнения. Подобный глубокий контроль за рассуждениями моделей, вероятно, станет обязательным стандартом для любой компании, внедряющей автономных ИИ-агентов в свои корпоративные процессы.