Суть события
OpenAI опубликовала результаты тестирования своей новой внутренней модели на задачах челленджа First Proof. Это соревнование, направленное на проверку способности искусственного интеллекта генерировать корректные и проверяемые математические доказательства исследовательского уровня. Компания утверждает, что модель с высокой вероятностью успешно решила 5 из 10 предложенных задач (номера 4, 5, 6, 9 и 10), хотя некоторые решения все еще находятся на стадии экспертной проверки.
Контекст
До недавнего времени математические способности языковых моделей ограничивались школьными или олимпиадными задачами, где решение обычно известно и имеет четкий алгоритм. Челлендж First Proof принципиально отличается: он состоит из открытых проблем или задач, требующих глубокого понимания узкоспециализированных областей математики. Некоторые из этих проблем оставались нерешенными годами.
new result theoretical physics > card image
Это продолжение тренда, который мы наблюдаем с 2025 года. В июле 2025 года модель OpenAI достигла уровня золотой медали на Международной математической олимпиаде (IMO). Позже, в ноябре, были опубликованы эксперименты с GPT-5 по ускорению научных открытий. Текущий эксперимент — это попытка перейти от решения учебных задач к созданию нового научного знания.
Детали эксперимента
Модель работала в режиме «спринта» с ограниченным человеческим надзором. Вот ключевые технические моменты:
- Обучение строгости: Исследователи тренируют новую модель с фокусом на повышение строгости мышления. Цель — научить ИИ «думать» непрерывно в течение многих часов, сохраняя логическую связность.
- Динамика обучения: Джеймс Р. Ли, исследователь OpenAI, отметил, что модель становилась «умнее» буквально день ото дня. Сначала она решила две задачи, а по мере дообучения справилась еще с тремя.
- Взаимодействие: Процесс не был полностью автономным. Человеческие операторы иногда подсказывали стратегии повторных попыток или просили модель уточнить части доказательства для упрощения проверки. Также использовался ChatGPT для форматирования и верификации стиля.
- Коррекция ошибок: Изначально команда считала, что задача №2 решена верно, но после анализа сообщества и комментариев организаторов признала ошибку. Это подчеркивает сложность верификации результатов в высшей математике.
Анализ: что это значит для индустрии
Scaling-social-science 1x1
Мы наблюдаем сдвиг в методах оценки ИИ. Стандартные бенчмарки (тесты производительности) становятся все менее релевантными для передовых моделей, так как они не проверяют способность к длительным рассуждениям и работе с неопределенностью. Челленджи вроде First Proof позволяют провести стресс-тест способности модели выстраивать длинные цепочки аргументации, которые должны выдержать критику экспертов-людей.
Успех в 50% задач такого уровня — это серьезный сигнал. Это означает, что ИИ перестает быть просто инструментом поиска информации или генерации кода и приближается к роли полноценного ассистента-исследователя в теоретических науках.
Перспектива
OpenAI позиционирует эту работу как шаг к созданию моделей следующего поколения, способных к настоящим научным открытиям. Если текущие результаты подтвердятся независимыми экспертами, мы можем ожидать появления инструментов для автоматической проверки теорем и помощи в фундаментальных исследованиях уже в ближайшие годы.
Однако важно помнить, что процесс верификации в математике занимает время. То, что модель выдала правдоподобный текст, еще не делает его истиной. Ошибка в задаче №2 служит хорошим напоминанием о том, что даже самые продвинутые системы пока нуждаются в тщательном контроле со стороны человека.