Что такое инструмент Petri и для чего он предназначен?

Petri — это инструмент, разработанный Anthropic для проверки безопасности систем искусственного интеллекта. Он выявляет опасные тенденции в поведении ИИ, такие как обман, излишняя лесть и готовность сотрудничать при выполнении вредоносных запросов.

Почему Anthropic передала разработку Petri некоммерческой организации Meridian Labs?

Передача Petri некоммерческой организации Meridian Labs направлена на создание независимой и объективной системы оценки больших языковых моделей. Это устраняет потенциальный конфликт интересов и повышает доверие к результатам аудита со стороны правительств и исследователей.

Какие основные улучшения появились в версии Petri 3.0?

Версия Petri 3.0 получила более гибкую архитектуру с разделенными моделями аудитора и целевой системы. Также добавлено дополнение Dish для реалистичных тестов, предотвращающее "эффект наблюдателя", и интеграция с инструментом Bloom для глубокого анализа поведения ИИ.

Как инструмент Petri оценивает безопасность искусственного интеллекта?

Petri работает по принципу перекрестного взаимодействия: одна модель выступает в роли «аудитора», симулируя сценарии, а другая — «судьи» — анализирует полученные текстовые расшифровки. Такой подход позволяет выявлять отклонения от этических норм и опасные тенденции.

Является ли Petri открытым инструментом для оценки ИИ?

Да, Petri является частью открытого технологического стека для оценки ИИ. Передача его в Meridian Labs способствует развитию стандартизированной и независимой системы, доступной для использования всей индустрией.

Anthropic передает инструмент оценки безопасности ИИ неза...

Компания Anthropic объявила о выпуске третьей версии своего инструмента Petri, предназначенного для проверки безопасности систем искусственного интеллекта. Одновременно с этим принято стратегическое решение: развитие проекта передается некоммерческой организации Meridian Labs. Этот шаг направлен на создание стандартизированной и независимой системы оценки больших языковых моделей (LLM), результатам которой сможет доверять вся индустрия.

Инструмент Petri был впервые представлен в октябре 2025 года как набор открытых тестов для выявления опасных тенденций в поведении ИИ. К таким тенденциям относятся обман, излишняя лесть (sycophancy) и готовность сотрудничать при выполнении вредоносных запросов. Anthropic использовала этот инструмент для внутреннего аудита всех своих моделей, начиная с поколения Claude Sonnet 4.5.

Система работает по принципу перекрестного взаимодействия. Одна модель выступает в роли «аудитора», симулируя различные сценарии, имеющие значение для безопасности. Другая модель берет на себя роль «судьи», который анализирует полученные текстовые расшифровки и выставляет оценки, фиксируя любые отклонения от заданных этических норм. Эффективность подхода подтверждается тем, что внешние организации, такие как Институт безопасности ИИ Великобритании (AISI), уже сделали Petri важной частью своих проверок на склонность ИИ к саботажу исследований.

Версия 3.0 приносит три фундаментальных изменения в работу системы. Во-первых, архитектура стала значительно более гибкой. Модели аудитора и целевой системы теперь программно разделены, что позволяет исследователям настраивать их параметры независимо друг от друга и адаптировать инструмент под более широкий спектр задач.

Во-вторых, разработчики решили проблему реалистичности тестов. Современные языковые модели зачастую способны по искусственным паттернам в запросах догадаться, что они находятся в тестовой среде. Понимая, что ее оценивают, модель может скорректировать свое поведение, скрыв реальные уязвимости. Чтобы преодолеть этот «эффект наблюдателя», было создано дополнение Dish. Оно запускает проверки, используя реальные системные инструкции и программное окружение, с которым модель будет работать после развертывания. Таким образом ИИ не подозревает о проходящем аудите.

В-третьих, Petri интегрировали с Bloom — еще одним открытым инструментом Anthropic, который предназначен для более глубокого и точечного анализа конкретных паттернов поведения, дополняя широкий охват базовой системы.

Передача разработки в руки Meridian Labs имеет важнейшее значение для развития отрасли. Когда компания, создающая передовые ИИ-модели, сама же контролирует инструменты для их тестирования, неизбежно возникает конфликт интересов. Чтобы результаты проверок воспринимались как нейтральные и заслуживающие доверия со стороны правительств и независимых исследователей, инструмент должен развиваться вне стен коммерческих лабораторий.

Anthropic уже применяла подобную практику, передав протокол MCP в Linux Foundation. Теперь Petri становится частью открытого технологического стека оценки ИИ, присоединяясь к таким решениям, как Inspect и Scout. В условиях, когда влияние искусственного интеллекта на общество стремительно растет, наличие надежных и независимых метрик безопасности становится не просто технической задачей, а критической необходимостью для всей индустрии.

Anthropic передает инструмент оценки безопасности ИИ независимому фонду

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Конец золотой лихорадки корпоративного ИИ: почему на первый план выходит инфраструктура исполнения

Стартап Subquadratic заявляет о решении проблемы квадратичного масштабирования в языковых моделях

Разработка локального ИИ-агента: почему автономность уступает подходу с участием человека

Гайды по теме