Безопасность ИИ-агентов: подход к управлению Codex в корп...

По мере развития искусственного интеллекта системы все чаще действуют от лица пользователей. Агенты для написания кода теперь могут автономно проверять репозитории, запускать команды и взаимодействовать с инструментами разработки. Ранее такие задачи требовали непосредственного участия человека.

Рост автономности требует новых подходов к безопасности. Командам информационной безопасности необходимо понимать, к чему агент имеет доступ, когда требуется одобрение человека и как объяснить поведение системы. OpenAI поделилась своим опытом безопасного развертывания агента Codex.

Главный принцип работы Codex заключается в балансе продуктивности и контроля. Агент свободно действует в рамках изолированной среды (песочницы), где рутинные задачи выполняются без задержек. Однако для действий с высоким риском требуется явное разрешение пользователя.

Песочница определяет технические границы: куда агент может записывать данные и к каким сетевым ресурсам обращаться. Для снижения нагрузки на разработчиков внедрен режим автоматического одобрения (Auto-review). В этом режиме специальный субагент оценивает контекст и самостоятельно разрешает безопасные действия, прерывая работу человека только в случае риска непредвиденных последствий.

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber > Art Card Image

Сетевой доступ агента строго регламентирован. Codex не имеет открытого доступа в интернет. Политики разрешают подключение только к известным и безопасным ресурсам, блокируя нежелательные домены. Аутентификация жестко привязана к корпоративному рабочему пространству ChatGPT Enterprise.

Традиционных журналов безопасности уже недостаточно для контроля ИИ. Обычные логи фиксируют факт изменения файла или запуска процесса, но не объясняют намерений. Поэтому Codex использует агент-ориентированную телеметрию на базе OpenTelemetry.

Эта телеметрия фиксирует запросы пользователей, решения об одобрении инструментов и результаты их работы. Интересно, что для анализа этих логов OpenAI использует другого ИИ-агента. При возникновении подозрительного события этот ИИ-аналитик изучает контекст и помогает службе безопасности отличить нормальное поведение от реальной угрозы.

По мере интеграции агентов в рабочие процессы, индустрии потребуются специализированные инструменты для управления ими. Опыт управления Codex показывает, что безопасное внедрение ИИ требует сочетания строгих политик, изолированных сред и глубокого понимания контекста действий системы.

Безопасность ИИ-агентов: подход к управлению Codex в корпоративной среде

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Обучение ИИ принципам вместо правил: новый подход к выравниванию моделей

Как устроена защита приватности в ChatGPT: фильтрация данных и контроль пользователей

Anthropic передает инструмент оценки безопасности ИИ независимому фонду

Гайды по теме