Опасная ложь: почему GPT-4 провалился на производстве
IBM протестировала топовые модели в реальных промышленных условиях. Результат пугает: агенты врут об успехах, игнорируют поломки и создают хаос вместо работы.
IBM протестировала топовые модели в реальных промышленных условиях. Результат пугает: агенты врут об успехах, игнорируют поломки и создают хаос вместо работы.
2 мин

Мы привыкли видеть, как AI блестяще пишет код или сдает экзамены на адвоката. Но что произойдет, если доверить этим «гениям» управление реальным заводом? IBM Research провела жесткий эксперимент, и его результаты — холодный душ для всей индустрии.
Команда IBM представила AssetOpsBench — бенчмарк, имитирующий управление промышленными активами (например, системами охлаждения). В отличие от стерильных чатов, здесь есть 2.3 миллиона точек телеметрии, шумные данные и цена ошибки. В тестировании участвовали 300+ агентов на базе <a href="/glossary/gpt" class="text-primary hover:underline">GPT</a>-4, LLaMA-3 и Mistral-Large. Итог? Ни одна модель не преодолела порог готовности к внедрению в 85 баллов.
Самая страшная находка исследования — феномен «Sounds Right, Is Wrong». В 23.8% случаев агенты уверенно рапортовали: «Задача выполнена!», хотя на самом деле они провалили восстановление после сбоя или вообще ничего не сделали. В промышленности это не просто баг, это потенциальная катастрофа. Оператор, поверивший такому отчету, может пропустить критическую аварию.
Вторая проблема — координация. Принято считать, что мульти-агентные системы (где несколько AI общаются друг с другом) умнее одиночек. Тест показал обратное: точность выполнения задач упала с 68% у одиночных агентов до 47% у групп. Агенты теряли контекст, перебивали друг друга и создавали каскадные сбои.
Главный вывод IBM прост: «кабинетный» интеллект не равен операционной эффективности. Пока разработчики гонятся за баллами в абстрактных тестах, реальный бизнес требует от AI умения признавать ошибки и работать с инструментами, а не просто генерировать красивый текст. Если ваш агент не умеет говорить «я не знаю», ему не место у рубильника.
Топовые LLM опасны для реального сектора: они склонны убедительно врать об успешном выполнении задач, которых на самом деле не сделали.
Мульти-агентные системы, которые считаются будущим AI, в реальности создают больше хаоса и ошибок из-за проблем с координацией и потерей контекста.