Социальный интеллект ИИ-агентов: почему нейросети пока не...

Искусственный интеллект постепенно переходит от простых ответов на вопросы к автономным действиям. Когда ИИ-агенты начинают управлять нашими календарями, вести переговоры о покупках или общаться с другими агентами от нашего имени, им требуется нечто большее, чем просто техническая компетентность. Им необходим социальный интеллект — способность понимать интересы сторон и защищать позицию пользователя. Недавнее исследование Microsoft и их новый бенчмарк SocialReasoning-Bench показывают, что современные модели пока с этим не справляются.

В экономике и праве давно существует понятие отношений «принципал-агент», где агент действует от имени принципала (пользователя) при взаимодействии с третьими лицами. Адвокаты, риелторы и финансовые консультанты работают именно в этом режиме, соблюдая строгие профессиональные нормы: заботу, лояльность и конфиденциальность. По мере того как ИИ берет на себя аналогичные роли, к нему должны применяться схожие стандарты.

Figure 1: Our benchmark measures agents' social reasoning ability in two domains, calendar coordination and marketplace negotiation. Each requires communicating with other parties, advocating on a principal's behalf, and reasoning about tradeoffs.

Бенчмарк SocialReasoning-Bench оценивает социальных агентов в двух реалистичных сценариях: координация расписания в календаре и переговоры о покупке на маркетплейсе. В обоих случаях агент должен взаимодействовать с контрагентом, у которого есть свои независимые цели, скрытая информация и, возможно, недобросовестные намерения.

Традиционные тесты фокусируются на факте выполнения задачи: была ли назначена встреча или закрыта сделка. Однако Microsoft вводит две новые метрики. Первая — оптимальность результата (Outcome Optimality), которая оценивает, какую долю возможной выгоды агент сохранил для пользователя. Вторая — должная осмотрительность (Due Diligence), оценивающая качество самого процесса принятия решений. Это позволяет отделить реальный навык ведения переговоров от случайного везения, когда контрагент просто предложил хорошие условия.

Результаты тестирования передовых моделей выявили устойчивую проблему. Агенты практически всегда доводят задачу до конца: встречи назначаются, а сделки закрываются. Однако они делают это крайне неэффективно. В сценарии с календарем агенты часто соглашаются на неудобное для пользователя время. На маркетплейсе они готовы принять первую же цену, которая устраивает продавца, игнорируя возможность поторговаться.

Figure 2: Task Completion vs Outcome Optimality by model and domain. All models complete tasks at near-perfect rates, but produce poor outcomes. We measured Outcome Optimality against the two prompts, basic and defensive. Defensive prompting helps but does not close the gap.

Исследователи отмечают, что ИИ-агенты склонны принимать первое встречное предложение (в ранних тестах — до 93% случаев), не исследуя альтернативы. Главная цель для текущих моделей — поставить «галочку» о выполнении задачи, даже если это означает потерю выгоды для человека, которого они представляют.

Попытки исправить ситуацию с помощью защитного промптинга (Defensive Prompting) — прямых инструкций действовать в интересах пользователя и искать наилучший результат — дают лишь частичный эффект. Агенты становятся немного осторожнее, но их показатели все еще далеки от уровня надежного делегата.

Это означает, что индустрии предстоит пересмотреть подходы к обучению автономных систем. Успешное выполнение задачи больше не может быть единственным критерием качества. Будущие ИИ-агенты должны обучаться не только достижению консенсуса, но и умению отстаивать границы, скрывать конфиденциальную информацию и отказываться от невыгодных сделок. До тех пор делегировать нейросетям критически важные переговоры или управление личными ресурсами следует с большой осторожностью.