Оценка гибких навыков с помощью ИИ: эксперимент Google Vantage
Google Research представила Vantage — систему на базе больших языковых моделей для оценки критического мышления и навыков сотрудничества в симулированных диалогах.
Google Research представила Vantage — систему на базе больших языковых моделей для оценки критического мышления и навыков сотрудничества в симулированных диалогах.
2 мин

Исследовательское подразделение Google Research в партнерстве с Нью-Йоркским университетом представило Vantage — экспериментальную платформу для оценки «навыков будущего» (future-ready skills). Система использует генеративный искусственный интеллект для создания симулированных рабочих сред, где студенты могут практиковать и оценивать свои навыки критического мышления, сотрудничества и решения конфликтов.
Традиционные образовательные системы сталкиваются с фундаментальной проблемой: оценивается только то, что легко измерить. Гибкие навыки (soft skills) исторически сложно поддаются стандартизированной оценке. Обычные тесты слишком прямолинейны, чтобы уловить ход мыслей человека, а оценка реальных групповых взаимодействий требует огромных ресурсов и страдает от субъективности преподавателей.

Vantage-1
Архитектура Vantage решает эту проблему, помещая учащегося в динамичную беседу с несколькими ИИ-аватарами. Процессом управляет так называемая «Управляющая модель» (Executive LLM). Ее задача — не просто поддерживать диалог, а целенаправленно создавать ситуации для проверки конкретных навыков. Например, модель может намеренно спровоцировать конфликт или отвергнуть идею пользователя, чтобы посмотреть, как он справится с возражениями.
После завершения симуляции в работу вступает «ИИ-оценщик» (AI Evaluator). Он анализирует транскрипт беседы по строгим педагогическим критериям. В совместном исследовании с участием 188 тестировщиков в возрасте от 18 до 25 лет система показала впечатляющие результаты. Степень совпадения оценок ИИ и экспертов Нью-Йоркского университета оказалась такой же высокой, как и уровень согласия между самими экспертами-людьми.

Vantage-2
Дополнительное исследование, проведенное совместно со стартапом OpenMic, подтвердило эффективность системы в оценке креативности. При анализе творческих мультимедийных задач корреляция Пирсона между оценками ИИ и оценками профильных специалистов составила 0.88, что считается крайне высоким показателем для автоматизированных систем.
Для индустрии образования это означает потенциальный переход от субъективных оценок поведения к измеримым, масштабируемым метрикам. Использование Управляющей модели в качестве адаптивного экзаменатора позволяет собирать высокую плотность данных о навыках пользователя за короткое время, сохраняя при этом естественность беседы.
В перспективе подобные симуляции могут создать новый «слой навыков» поверх существующих школьных и университетских программ. Студенты смогут получать обратную связь не только по фактическим знаниям предмета, но и по качеству своей аргументации, умению слушать коллег и находить компромиссы. Это важный шаг к созданию образовательной среды, которая готовит людей к реальным вызовам, а не только к сдаче стандартизированных тестов.
Google разработала систему, способную объективно и масштабируемо оценивать гибкие навыки людей в симулированных диалогах, решая давнюю проблему стандартизации оценки soft skills.
ИИ оказался способен не просто поддерживать беседу, но и целенаправленно провоцировать пользователя на проявление конкретных навыков (например, создавая конфликтные ситуации), выступая в роли идеального адаптивного экзаменатора.