Как OpenAI защищает ИИ-агентов от социальной инженерии и инъекций подсказок
Инъекции подсказок становятся сложнее, превращаясь в социальную инженерию. OpenAI предлагает бороться не с распознаванием вредоносного текста, а с ограничением последствий атак.

Искусственный интеллект становится все более автономным. Современные ИИ-агенты умеют искать информацию в интернете, анализировать документы и выполнять действия от лица пользователя. Однако эти полезные навыки открывают новые векторы для атак. Компания OpenAI опубликовала исследование, в котором объясняет, почему традиционные методы защиты больше не работают, и как архитектура систем должна адаптироваться к новым угрозам.
Главная проблема современности — это инъекции подсказок (prompt injection). Это метод, при котором злоумышленник прячет инструкции во внешнем контенте (например, на веб-странице или в письме), чтобы заставить модель сделать то, о чем пользователь не просил. Со временем эти атаки эволюционировали. Если раньше было достаточно написать на странице Википедии прямую команду для ИИ, то теперь атаки стали гораздо изощреннее.

oai Blog Codex Security Art Card 1x1
По мере того как языковые модели становились умнее, они научились игнорировать примитивные команды. В ответ хакеры начали использовать методы социальной инженерии. Например, злоумышленник может прислать электронное письмо, замаскированное под сообщение от отдела кадров. В нем содержится сложный контекст: упоминание реструктуризации, срочные задачи и скрытая инструкция для ИИ-ассистента — извлечь личные данные сотрудника и отправить их на сторонний сервер для «проверки».
В индустрии кибербезопасности долгое время считалось, что решением проблемы станут ИИ-файрволы (AI firewalling). Это промежуточные системы, которые пытаются классифицировать входящий текст на нормальный и вредоносный. Однако на практике выявить сложную социальную инженерию таким способом почти невозможно. Для системы это равносильно попытке распознать ложь или дезинформацию без полного понимания контекста.
Осознав это, инженеры OpenAI изменили подход. Вместо того чтобы пытаться создать идеальный фильтр, они начали рассматривать ИИ-агентов через призму управления рисками, применимую к людям. Представьте оператора службы поддержки: он хочет помочь клиентам компании, но постоянно сталкивается с мошенниками, которые пытаются его обмануть или запугать. Чтобы минимизировать риски, компания не просто учит оператора распознавать ложь, но и вводит жесткие лимиты на его действия — например, ограничивает сумму возврата средств без одобрения менеджера.





