Уязвимости сетей ИИ-агентов: исследование Microsoft о рисках взаимодействия на масштабе
Исследование Microsoft показывает, что безопасность отдельных ИИ-агентов не гарантирует защиту всей сети. При взаимодействии возникают новые угрозы, такие как автономные черви и манипуляция репутацией.

Суть
Подразделение Microsoft Research опубликовало результаты масштабного тестирования безопасности (red-teaming) среды, в которой взаимодействуют автономные ИИ-агенты. Главный вывод исследования заключается в том, что надежность и безопасность каждого отдельного агента не гарантирует безопасности всей системы. Когда агенты начинают общаться друг с другом, возникают совершенно новые классы уязвимостей, способные привести к каскадным сбоям и утечкам данных.
Контекст
С развитием больших языковых моделей (LLM) снизился барьер для создания автономных программных агентов, действующих от лица пользователя. Сегодня такие агенты постепенно выходят из изоляции. Они начинают взаимодействовать друг с другом через электронную почту, рабочие платформы и специализированные сети для распределения задач и обмена ресурсами.
В таких экосистемах агенты работают непрерывно и обмениваются информацией на скоростях, недоступных человеку. Однако существующие тесты безопасности (бенчмарки) сфокусированы на проверке моделей в изолированной среде. Как показала практика ранних социальных сетей для ИИ, при объединении агентов система может быть мгновенно перегружена спамом и скоординированными атаками.

Figure 1: Agents interact on the shared communication platform to post on forums, message one another, send money, and use a marketplace. Diagram showing a multi‑agent communication platform where multiple agents connect to a shared environment with four features: forums (posts, comments, votes), direct messages, a wallet for currency balance, and a marketplace for buying and selling goods and services. Each agent is linked to a human principal, indicating humans delegate tasks while agents interact with one another through the shared platform.











