Безопасность автономных ИИ-агентов: как работает изолированная среда OpenShell
Новая среда выполнения переносит контроль над ИИ-агентами с уровня текстовых инструкций на уровень системной инфраструктуры, обеспечивая надежную изоляцию процессов.
Новая среда выполнения переносит контроль над ИИ-агентами с уровня текстовых инструкций на уровень системной инфраструктуры, обеспечивая надежную изоляцию процессов.
3 мин

Автономные системы совершили важный переход: они больше не ограничиваются генерацией текста или логическими рассуждениями. Современные ИИ-агенты способны выполнять реальные действия — читать файлы, использовать инструменты, писать и запускать код, а также управлять рабочими процессами в корпоративных системах. По мере того как агенты непрерывно обучаются и эволюционируют, риски на уровне приложений растут в геометрической прогрессии. Для решения этой задачи была представлена среда выполнения OpenShell.
Долгое время контроль над поведением языковых моделей (LLM) и агентов строился преимущественно на системных инструкциях (промптах). Разработчики пытались задать правила безопасности через текстовые указания, прося модель не передавать конфиденциальные данные или не выполнять вредоносный код. Однако этот подход уязвим: агенты могут быть скомпрометированы, а текстовые ограничения — обойдены. Требовался переход от поведенческих просьб к жестким системным ограничениям.

Изображение из источника
OpenShell, являющийся частью набора инструментов Agent Toolkit, представляет собой среду выполнения с открытым исходным кодом, изначально спроектированную с учетом требований безопасности (secure-by-design). Главный принцип работы заключается в том, что каждый агент запускается внутри собственной изолированной среды — песочницы.
Разработчики сравнивают этот подход с моделью «вкладок браузера». Сессии изолированы друг от друга, ресурсы жестко контролируются, а права доступа проверяются средой выполнения еще до того, как агент совершит какое-либо действие. Политики безопасности применяются на системном уровне, что делает их недоступными для изменения самим агентом. Даже если агент будет скомпрометирован, он не сможет нарушить установленные ограничения или допустить утечку данных.

Into the Omniverse: How Industrial AI and Digital Twins Accelerate Design, Engineering and Manufacturing Across Industries
Для практической реализации концепции также представлен NemoClaw — эталонный стек с открытым исходным кодом. Он упрощает развертывание постоянно работающих личных ИИ-помощников с использованием среды OpenShell и открытых моделей семейства Nemotron. NemoClaw позволяет разработчикам настраивать параметры конфиденциальности и безопасности для конкретных сценариев использования, подобно тому, как пользователи управляют разрешениями для приложений на смартфонах.
Разделение логики работы агента и политик безопасности — это признак взросления индустрии. Предприятия получают единый унифицированный уровень для определения и мониторинга того, как работают автономные системы. Независимо от операционной системы хоста, все агенты-программисты, исследовательские ассистенты и автоматизированные рабочие процессы подчиняются одним и тем же правилам среды выполнения. Для обеспечения совместимости с корпоративными стандартами ведется сотрудничество с ведущими игроками в сфере кибербезопасности, включая Cisco, CrowdStrike, Google Cloud и Microsoft Security.
В настоящее время OpenShell и NemoClaw находятся на стадии ранней предварительной версии. Однако направление развития очевидно: по мере того как автономные агенты будут становиться все более самостоятельными и долгоживущими, инфраструктурная изоляция станет обязательным стандартом. Без подобных систем масштабирование агентских рабочих процессов в корпоративной среде было бы сопряжено с неприемлемыми рисками.
Безопасность ИИ-агентов переходит от текстовых инструкций к жесткой инфраструктурной изоляции, что делает невозможным обход политик безопасности самими моделями.
Главный сдвиг заключается в признании того факта, что ИИ нельзя просто «попросить» вести себя безопасно — его нужно физически лишить возможности нарушить правила на уровне операционной среды.