Сколько задач челленджа First Proof решила модель OpenAI?

Модель OpenAI, по утверждению компании, успешно справилась с 5 из 10 предложенных задач исследовательского уровня, хотя некоторые из этих решений еще находятся на стадии экспертной проверки.

Почему достижения OpenAI в доказательстве теорем важны для науки?

Это демонстрирует переход ИИ от решения известных учебных задач к созданию нового научного знания, приближая его к роли полноценного ассистента-исследователя в теоретических науках и ускоряя фундаментальные открытия.

Полностью ли автономно ИИ решал математические задачи в эксперименте OpenAI?

Нет, процесс не был полностью автономным. Человеческие операторы иногда подсказывали стратегии повторных попыток или просили модель уточнить части доказательства, а также использовали ChatGPT для форматирования и верификации стиля.

Какие перспективы открывает успех ИИ в доказательстве сложных математических теорем?

Это открывает перспективы для создания моделей следующего поколения, способных к настоящим научным открытиям, а также для появления инструментов автоматической проверки теорем и помощи в фундаментальных исследованиях в ближайшие годы.

OpenAI тестирует возможности ИИ в доказательстве сложных ...

Q: Что такое челлендж First Proof, в котором участвовала модель OpenAI?

First Proof — это соревнование, проверяющее способность искусственного интеллекта генерировать корректные и проверяемые математические доказательства исследовательского уровня, часто включающие открытые проблемы, остававшиеся нерешенными годами.

Суть события

OpenAI опубликовала результаты тестирования своей новой внутренней модели на задачах челленджа First Proof. Это соревнование, направленное на проверку способности искусственного интеллекта генерировать корректные и проверяемые математические доказательства исследовательского уровня. Компания утверждает, что модель с высокой вероятностью успешно решила 5 из 10 предложенных задач (номера 4, 5, 6, 9 и 10), хотя некоторые решения все еще находятся на стадии экспертной проверки.

Контекст

До недавнего времени математические способности языковых моделей ограничивались школьными или олимпиадными задачами, где решение обычно известно и имеет четкий алгоритм. Челлендж First Proof принципиально отличается: он состоит из открытых проблем или задач, требующих глубокого понимания узкоспециализированных областей математики. Некоторые из этих проблем оставались нерешенными годами.

new result theoretical physics > card image

Это продолжение тренда, который мы наблюдаем с 2025 года. В июле 2025 года модель OpenAI достигла уровня золотой медали на Международной математической олимпиаде (IMO). Позже, в ноябре, были опубликованы эксперименты с GPT-5 по ускорению научных открытий. Текущий эксперимент — это попытка перейти от решения учебных задач к созданию нового научного знания.

Детали эксперимента

Модель работала в режиме «спринта» с ограниченным человеческим надзором. Вот ключевые технические моменты:

Обучение строгости: Исследователи тренируют новую модель с фокусом на повышение строгости мышления. Цель — научить ИИ «думать» непрерывно в течение многих часов, сохраняя логическую связность.
Динамика обучения: Джеймс Р. Ли, исследователь OpenAI, отметил, что модель становилась «умнее» буквально день ото дня. Сначала она решила две задачи, а по мере дообучения справилась еще с тремя.
Взаимодействие: Процесс не был полностью автономным. Человеческие операторы иногда подсказывали стратегии повторных попыток или просили модель уточнить части доказательства для упрощения проверки. Также использовался ChatGPT для форматирования и верификации стиля.
Коррекция ошибок: Изначально команда считала, что задача №2 решена верно, но после анализа сообщества и комментариев организаторов признала ошибку. Это подчеркивает сложность верификации результатов в высшей математике.

Анализ: что это значит для индустрии

Scaling-social-science 1x1

Мы наблюдаем сдвиг в методах оценки ИИ. Стандартные бенчмарки (тесты производительности) становятся все менее релевантными для передовых моделей, так как они не проверяют способность к длительным рассуждениям и работе с неопределенностью. Челленджи вроде First Proof позволяют провести стресс-тест способности модели выстраивать длинные цепочки аргументации, которые должны выдержать критику экспертов-людей.

Успех в 50% задач такого уровня — это серьезный сигнал. Это означает, что ИИ перестает быть просто инструментом поиска информации или генерации кода и приближается к роли полноценного ассистента-исследователя в теоретических науках.

Перспектива

OpenAI позиционирует эту работу как шаг к созданию моделей следующего поколения, способных к настоящим научным открытиям. Если текущие результаты подтвердятся независимыми экспертами, мы можем ожидать появления инструментов для автоматической проверки теорем и помощи в фундаментальных исследованиях уже в ближайшие годы.

Однако важно помнить, что процесс верификации в математике занимает время. То, что модель выдала правдоподобный текст, еще не делает его истиной. Ошибка в задаче №2 служит хорошим напоминанием о том, что даже самые продвинутые системы пока нуждаются в тщательном контроле со стороны человека.