Проектирование опыта взаимодействия: как пользователи хотят управлять AI-агентами
Исследователи из Apple и Carnegie Mellon University создали таксономию пользовательского опыта для AI-агентов, управляющих компьютером, выявив разрыв между возможностями моделей и ожиданиями людей.

Суть исследования
Развитие больших языковых моделей (LLM) привело к появлению нового класса инструментов — агентов использования компьютера (Computer Use Agents). Эти системы способны выполнять команды пользователя, взаимодействуя с интерфейсом операционной системы или браузера: нажимать кнопки, прокручивать страницы и заполнять формы. Однако до сих пор индустрия фокусировалась преимущественно на технической реализации и бенчмарках производительности, оставляя без внимания вопрос: как именно люди хотят взаимодействовать с такими помощниками?
Исследователи из Apple и Университета Карнеги-Меллона опубликовали работу, в которой попытались закрыть этот пробел. Они разработали таксономию (систему классификации) пользовательского опыта для подобных агентов. Главный вывод работы заключается в том, что простого выполнения задач недостаточно. Пользователям критически важны прозрачность действий агента, возможность перехвата управления в любой момент и понятная ментальная модель того, как агент «думает».
Контекст
Идея программных агентов, управляющих интерфейсом, не нова. В сообществе взаимодействия человека и компьютера (HCI) эти концепции обсуждаются десятилетиями. Ранние примеры, такие как CoScripter или ScriptAgent, позволяли записывать и воспроизводить действия. Однако современные LLM и мультимодальные модели (MLLM) вывели эту технологию на новый уровень автономности.
Сегодня мы видим такие проекты, как «Computer Use» от Anthropic, OpenWebAgent и различные реализации от Apple (например, Ferret-UI). Проблема в том, что большинство исследований сосредоточено на точности выполнения задач. Но, как отмечали пионеры HCI еще в 90-х годах, агенты не должны быть полной альтернативой прямому управлению. Баланс между автономией машины и контролем человека остается сложной инженерной и дизайнерской задачей, которая с приходом мощных нейросетей стала только острее.
Детали эксперимента
Исследование проходило в два этапа. Сначала авторы проанализировали девять существующих систем компьютерных агентов, выпущенных в 2024–2025 годах, и провели интервью с восемью практиками в области UX и AI. Это позволило создать начальную карту пространства дизайна, выделив ключевые категории: подсказки пользователя (prompts), объяснимость действий, контроль и ментальные модели.



