Суть
Компания Anthropic объявила о глобальном развертывании модели Claude Fable 5, сопроводив этот шаг публикацией подробностей о новых механизмах кибербезопасности. Разработчики представили систему классификаторов безопасности и первую версию структуры для оценки серьезности обхода защиты (jailbreak). Это важный шаг к стандартизации того, как индустрия искусственного интеллекта взаимодействует с правительствами и исследователями при обсуждении потенциальных угроз.
Контекст
Сфера кибербезопасности представляет особую сложность для систем защиты искусственного интеллекта из-за проблемы двойного назначения (dual use). Одни и те же возможности модели могут использоваться как для защиты, так и для нападения. Например, способность анализировать программный код на наличие уязвимостей критически важна для системных администраторов (чтобы закрыть бреши), но в руках злоумышленников она же становится инструментом подготовки кибератаки. До сих пор в индустрии не было единого стандарта для оценки того, насколько опасен тот или иной метод обхода защиты, что затрудняло коммуникацию между разработчиками и регуляторами.
Детали
Вместо того чтобы полностью блокировать любые запросы, связанные с кибербезопасностью, Anthropic внедрила многоуровневую систему классификаторов. Все запросы делятся на четыре категории:
- Запрещенное использование (Prohibited use). Включает действия, наносящие значительный вред, такие как создание программ-вымогателей, саботаж физической инфраструктуры, кража данных или разработка вредоносного ПО. Эти запросы блокируются алгоритмами полностью.
- Высокорисковое двойное назначение (High-risk dual use). Действия, часто применяемые специалистами при тестировании на проникновение (penetration testing), но опасные в открытом доступе. Пока у компании нет надежных механизмов верификации легитимных специалистов (белых хакеров), такие запросы в Fable 5 также блокируются.
- Низкорисковое двойное назначение (Low-risk dual use). В основном защитные действия. Они разрешены, но строго отслеживаются. Часть из них может блокироваться в рамках специального "запаса прочности" для предотвращения обхода защиты.
- Безопасное использование (Benign use). Обычные запросы, которые разрешены с базовым мониторингом.
Кроме того, Anthropic совместно с партнерами из Glasswing разработала проект системы оценки серьезности джейлбрейков и запустила программу на платформе HackerOne для поиска уязвимостей в Fable 5.
Анализ
Подход Anthropic демонстрирует взросление индустрии. Компания прямо признает, что невозможно создать абсолютно безопасную модель, не лишив ее при этом полезности для профессионалов. Введение "запаса прочности" (safety margin) означает, что система осознанно будет допускать ложноположительные срабатывания, блокируя некоторые безопасные запросы ради минимизации серьезных рисков. Особое внимание уделяется поиску уязвимостей: модель может помогать в базовом анализе кода, но автоматическая генерация эксплойтов и поиск сложных уязвимостей строго пресекаются.
Перспектива
Предложенная структура оценки серьезности джейлбрейков — это открытое приглашение к диалогу для академической среды, бизнеса и государственного сектора. Если этот подход будет принят как стандарт, он позволит разработчикам разных стран и компаний говорить на одном языке при оценке ИИ-рисков. В будущем, по мере развития систем контроля доступа, Anthropic может начать открывать возможности "высокорискового двойного назначения" для верифицированных специалистов по кибербезопасности, разделив доступ для обычных пользователей и профессионалов.