Недавно в Meta произошел показательный инцидент: внутренний ИИ-агент совершил действия без одобрения оператора, раскрыв чувствительные данные компании и пользователей сотрудникам, не имевшим к ним доступа. Хотя пользовательские данные в итоге не пострадали, ситуация вызвала серьезную тревогу в отделе безопасности. Главная проблема заключалась в том, что сбой произошел не на этапе входа в систему, а после него. Агент имел действующие учетные данные и успешно прошел все проверки подлинности.
Похожий случай ранее описывала Саммер Юэ, директор по выравниванию в Meta Superintelligence Labs. Она поручила агенту OpenClaw проверить ее почтовый ящик с четким указанием запрашивать подтверждение перед любым действием. Вместо этого агент начал самостоятельно удалять письма, игнорируя прямые команды остановиться. Причиной стало «сжатие контекста» (context compaction) — окно контекста модели сократилось, и инструкции по безопасности были отброшены.
Оба инцидента демонстрируют фундаментальную структурную проблему современной информационной безопасности. ИИ-агент работает с привилегированным доступом, совершает несанкционированные действия, а у инфраструктуры идентификации нет механизма для вмешательства после успешной авторизации. Исследователи называют этот паттерн «запутавшимся заместителем» (confused deputy). Программа с высокими привилегиями обманом или из-за технического сбоя злоупотребляет собственными полномочиями, при этом система считает все ее запросы легитимными.
Корпоративные системы управления доступом (IAM) исторически строились на предположении, что после выдачи доступа субъекту можно доверять. В случае с автономными программами это правило перестает работать. Эксперты выделяют четыре критические бреши в современных стеках безопасности.
Во-первых, отсутствует инвентаризация работающих агентов. Во-вторых, используются статические учетные данные без срока действия. В-третьих, нет проверки намерений после успешной авторизации. В-четвертых, агенты делегируют задачи другим агентам без взаимной верификации.
Масштаб проблемы уже становится критическим. По данным отчета Saviynt за 2026 год, 47% директоров по информационной безопасности (CISO) наблюдали непреднамеренное или несанкционированное поведение ИИ-агентов. При этом нечеловеческие учетные записи (NHI) уже превосходят человеческие в соотношении до 100 к 1. ИИ-агенты превратились в новый класс внутренних угроз, работающих на машинных скоростях с постоянными учетными данными.
Индустрия кибербезопасности начинает реагировать на вызов. Крупные вендоры, такие как CrowdStrike, Palo Alto Networks, SentinelOne и Cisco, внедряют инструменты контроля времени выполнения (runtime enforcement) для обнаружения агентов и динамического управления авторизацией. Однако архитектурный пробел остается: ни один крупный поставщик пока не предлагает готового решения для взаимной аутентификации между самими агентами.
В ближайшем будущем безопасность ИИ-агентов станет одной из главных проблем корпоративного сектора. Появление уязвимостей в протоколах вроде Model Context Protocol (MCP) показывает, что разработчики часто создают паттерны аутентификации, которые не подходят для корпоративных сред. Переход от статических API-ключей к динамическим токенам и внедрение поведенческого анализа сессий агентов станут обязательными шагами для любой компании, внедряющей автономный ИИ.