Исследование надежности ИИ: как модели искажают данные при длительном делегировании
Анализ проблемы накопления ошибок в больших языковых моделях при выполнении многошаговых задач без контроля человека.
Анализ проблемы накопления ошибок в больших языковых моделях при выполнении многошаговых задач без контроля человека.
3 мин

Когда мы поручаем искусственному интеллекту сложную задачу, состоящую из множества шагов, мы ожидаем, что результат будет таким же точным, как и при выполнении одиночного запроса. Однако недавнее исследование показало, что при длительном делегировании задач без промежуточного контроля со стороны человека большие языковые модели (LLM) начинают постепенно искажать исходные данные. Это важное открытие, которое помогает лучше понять ограничения современных автономных систем и пути их преодоления.
Некоторое время назад исследовательская группа опубликовала работу под названием «LLM искажают ваши документы при делегировании». Эта статья вызвала широкое обсуждение в индустрии относительно того, насколько можно доверять автономным ИИ-агентам. Чтобы избежать недопонимания, авторы выпустили дополнительные пояснения. Их цель — не доказать, что ИИ бесполезен в профессиональной среде, а создать надежные методы оценки для длительных совместных задач (long-horizon delegated tasks) и выявить разрыв между высокими оценками в бенчмарках и реальным поведением моделей.
В основе исследования лежит концепция «делегированной работы». Это ситуации, когда пользователь поручает системе многошаговое редактирование важных артефактов — текстовых документов, таблиц или кода — с минимальным вмешательством человека между этапами. Для тестирования был разработан специальный бенчмарк DELEGATE-52, который выступает в роли стресс-теста.
Исследователи использовали цепочки задач по трансформации и инверсии данных, чтобы проверить, сохраняется ли семантический смысл при многократном редактировании. Внимание уделялось именно смысловым искажениям, а не стилистическим изменениям.

Illustrated headshots of Daniel Carpenter, Timo Minssen, Chad Atalla, and Kathleen Sullivan for the Microsoft Research Podcast
Результаты показали, что современные передовые модели могут допускать редкие, но значимые ошибки, которые накапливаются со временем. В ходе тестирования было зафиксировано ухудшение точности артефактов на 19–34% после 20 итераций делегирования. Интересно, что задачи, связанные с кодом на Python, продемонстрировали значительно более высокую устойчивость: уровень деградации составил менее 1%.
Эти цифры могут показаться тревожными, но важно понимать контекст. Бенчмарк DELEGATE-52 был намеренно спроектирован как стресс-тест в изолированной среде. Он не отражает работу полноценных производственных систем.
В реальных корпоративных решениях модели не работают в вакууме. Они интегрированы со специализированными инструментами, системами оркестрации, механизмами поиска и, что самое главное, циклами верификации. Наличие промежуточных проверок и правильной архитектуры позволяет нивелировать эффект накопления ошибок. Таким образом, исследование не говорит о том, что ИИ не готов к работе, оно лишь указывает на необходимость создания более сложных систем контроля качества.
Главный вывод из этой работы заключается в том, что надежное длительное делегирование остается важной открытой проблемой для инженеров и исследователей. Успешное выполнение коротких задач не гарантирует, что модель справится с длинной цепочкой действий без сбоев.
В будущем мы можем ожидать появления новых подходов к обучению моделей, учитывающих специфику многошаговых процессов (workflow-aware training). Также будут развиваться системы долгосрочной памяти и механизмы автоматической самопроверки агентов. Понимание текущих ограничений — это первый шаг к созданию по-настоящему надежных цифровых сотрудников, которым можно будет безопасно делегировать рутинные процессы.
При многошаговом выполнении задач без контроля человека языковые модели постепенно искажают данные, что требует разработки новых механизмов верификации.
Высокие баллы языковых моделей в стандартных коротких тестах не гарантируют их стабильности при длительной автономной работе.