Что исследовали в эксперименте Anthropic с Claude?

В эксперименте Anthropic изучалась способность больших языковых моделей самостоятельно проводить научные изыскания в области выравнивания ИИ. Цель — найти способы контролировать будущие интеллектуальные системы, которые превзойдут человека.

Насколько эффективно ИИ-агенты Anthropic справились с задачей выравнивания?

Команда из девяти ИИ-агентов достигла показателя восстановления разрыва в производительности (PGR) 0.97, что значительно превосходит результат человеческих исследователей (0.23 PGR) за аналогичный период. Это демонстрирует высокую эффективность ИИ в конкретной задаче.

Что такое «обучение сильной модели слабой» (weak-to-strong supervision)?

Это методология, при которой менее мощная модель выступает в роли «учителя» для более сильной, но еще не настроенной базовой модели. Цель — помочь сильной модели максимально раскрыть свой потенциал, используя обратную связь от слабой.

Могут ли ИИ-агенты полностью заменить ученых в исследованиях безопасности ИИ?

Нет, эксперимент показал, что ИИ-агенты склонны находить узкие решения, которые плохо переносятся на другие задачи или производственные модели. Они скорее являются мощным инструментом для автоматизации рутинных гипотез и масштабных экспериментов, дополняя работу человека.

Автоматизация исследований безопасности ИИ: эксперимент A...

В лабораториях Anthropic завершился важный эксперимент, результаты которого могут изменить подход к безопасности искусственного интеллекта. Исследователи задались вопросом: способны ли современные большие языковые модели (LLM) самостоятельно проводить научные изыскания в области выравнивания (alignment) ИИ, помогая контролировать системы, которые в будущем превзойдут человека по уровню интеллекта.

Проблема, с которой сталкивается индустрия, называется «масштабируемый контроль» (scalable oversight). Когда ИИ начнет писать миллионы строк сложнейшего кода, людям будет физически невозможно проверить, действует ли система согласно заданным целям. В качестве полигона для решения этой проблемы Anthropic выбрала концепцию «обучения сильной модели слабой» (weak-to-strong supervision). В этом сценарии относительно слабая модель выступает в роли «учителя» для более сильной, но еще не настроенной базовой модели. Цель — заставить сильную модель не просто скопировать ответы слабой, а использовать ее обратную связь для раскрытия своего полного потенциала.

Graph showing the progress of our Automated Alignment Researchers on increasing the "performance gap recovered" on a chat dataset.

Для проведения эксперимента команда создала девять «Автоматизированных исследователей выравнивания» (AAR) на базе модели Claude Opus 4.6. Каждому агенту предоставили доступ к песочнице для написания кода, форуму для обмена идеями с другими агентами, хранилищу данных и вычислительным ресурсам. Важной деталью стало то, что агентам дали лишь общие, немного отличающиеся направления для работы, избегая жестких инструкций. Как выяснилось, излишняя структурированность процесса сильно ограничивала креативность Claude.

Результаты оказались впечатляющими. В качестве базовой метрики использовалась доля восстановленного разрыва в производительности (PGR) между слабой моделью и теоретическим пределом сильной. Двое исследователей-людей за семь дней работы смогли достичь показателя PGR 0.23. Команда из девяти ИИ-агентов за пять дополнительных дней (около 800 часов совокупного времени) достигла показателя 0.97, практически полностью закрыв разрыв. Стоимость эксперимента составила около 18 000 долларов.

Graph showing how well AAR-discovered ideas transfer to held-out datasets in math and code.

Однако радоваться полной автоматизации науки пока рано. Когда исследователи попытались применить лучшие методы, найденные агентами, к другим задачам, результаты оказались неоднозначными. На математических задачах метод сработал отлично (PGR 0.94), на задачах программирования — хуже (PGR 0.47). А попытка применить найденный алгоритм к производственной модели Claude Sonnet 4 не дала статистически значимых улучшений. Агенты склонны находить узкие решения, идеально подходящие для конкретных данных, но теряющие эффективность в других условиях.

Этот эксперимент не означает, что ИИ готов полностью заменить ученых. Скорее, он демонстрирует появление нового мощного инструмента. Люди могут делегировать рутинную проверку гипотез и масштабные эксперименты автоматизированным агентам, оставляя за собой роль постановщиков задач и контролеров. В будущем успешное развитие таких методов может стать ключом к удержанию сверхинтеллектуальных систем под контролем человека.

Автоматизация исследований безопасности ИИ: эксперимент Anthropic с Claude

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Как Braintrust ускоряет разработку с помощью Codex и GPT-5.5

Руководство по оценке передовых ИИ-моделей: новые стандарты от создателей ChatGPT

Агентная организация на практике: как Endava масштабирует экспертизу с помощью Codex

Гайды по теме