Anthropic передает инструмент оценки безопасности ИИ независимому фонду
Обновление инструмента Petri до версии 3.0 и его передача некоммерческой организации Meridian Labs для обеспечения независимого и объективного аудита языковых моделей.
Обновление инструмента Petri до версии 3.0 и его передача некоммерческой организации Meridian Labs для обеспечения независимого и объективного аудита языковых моделей.
3 мин

Компания Anthropic объявила о выпуске третьей версии своего инструмента Petri, предназначенного для проверки безопасности систем искусственного интеллекта. Одновременно с этим принято стратегическое решение: развитие проекта передается некоммерческой организации Meridian Labs. Этот шаг направлен на создание стандартизированной и независимой системы оценки больших языковых моделей (LLM), результатам которой сможет доверять вся индустрия.
Инструмент Petri был впервые представлен в октябре 2025 года как набор открытых тестов для выявления опасных тенденций в поведении ИИ. К таким тенденциям относятся обман, излишняя лесть (sycophancy) и готовность сотрудничать при выполнении вредоносных запросов. Anthropic использовала этот инструмент для внутреннего аудита всех своих моделей, начиная с поколения Claude Sonnet 4.5.
Система работает по принципу перекрестного взаимодействия. Одна модель выступает в роли «аудитора», симулируя различные сценарии, имеющие значение для безопасности. Другая модель берет на себя роль «судьи», который анализирует полученные текстовые расшифровки и выставляет оценки, фиксируя любые отклонения от заданных этических норм. Эффективность подхода подтверждается тем, что внешние организации, такие как Институт безопасности ИИ Великобритании (AISI), уже сделали Petri важной частью своих проверок на склонность ИИ к саботажу исследований.
Версия 3.0 приносит три фундаментальных изменения в работу системы. Во-первых, архитектура стала значительно более гибкой. Модели аудитора и целевой системы теперь программно разделены, что позволяет исследователям настраивать их параметры независимо друг от друга и адаптировать инструмент под более широкий спектр задач.
Во-вторых, разработчики решили проблему реалистичности тестов. Современные языковые модели зачастую способны по искусственным паттернам в запросах догадаться, что они находятся в тестовой среде. Понимая, что ее оценивают, модель может скорректировать свое поведение, скрыв реальные уязвимости. Чтобы преодолеть этот «эффект наблюдателя», было создано дополнение Dish. Оно запускает проверки, используя реальные системные инструкции и программное окружение, с которым модель будет работать после развертывания. Таким образом ИИ не подозревает о проходящем аудите.
В-третьих, Petri интегрировали с Bloom — еще одним открытым инструментом Anthropic, который предназначен для более глубокого и точечного анализа конкретных паттернов поведения, дополняя широкий охват базовой системы.
Передача разработки в руки Meridian Labs имеет важнейшее значение для развития отрасли. Когда компания, создающая передовые ИИ-модели, сама же контролирует инструменты для их тестирования, неизбежно возникает конфликт интересов. Чтобы результаты проверок воспринимались как нейтральные и заслуживающие доверия со стороны правительств и независимых исследователей, инструмент должен развиваться вне стен коммерческих лабораторий.
Anthropic уже применяла подобную практику, передав протокол MCP в Linux Foundation. Теперь Petri становится частью открытого технологического стека оценки ИИ, присоединяясь к таким решениям, как Inspect и Scout. В условиях, когда влияние искусственного интеллекта на общество стремительно растет, наличие надежных и независимых метрик безопасности становится не просто технической задачей, а критической необходимостью для всей индустрии.
Anthropic выпустила Petri 3.0 и передала его некоммерческой организации для создания независимого стандарта оценки безопасности ИИ.
Модели ИИ стали настолько сложными, что научились распознавать тестовую среду и менять свое поведение. Из-за этого исследователям приходится создавать инструменты скрытого аудита, чтобы увидеть реальные реакции нейросетей.