Суть обновления
Компания Anthropic выпустила третью версию своей Политики ответственного масштабирования (Responsible Scaling Policy, RSP). Это добровольный свод правил, которому компания следует, чтобы предотвратить катастрофические риски от использования искусственного интеллекта. Ключевой момент этого обновления — не просто ужесточение мер, а честное признание: предыдущая стратегия сработала лишь частично. Компания пересматривает свои подходы, чтобы сделать их более реалистичными в условиях, когда государственное регулирование отстает от технического прогресса, а возможности моделей растут быстрее, чем методы их оценки.
Контекст: от чат-ботов к автономным агентам
Первая версия RSP появилась в сентябре 2023 года. Тогда большие языковые модели (LLM) представляли собой преимущественно текстовые чат-интерфейсы. Сегодня, спустя два с половиной года (согласно дате документа — февраль 2026), модели умеют просматривать веб-страницы, писать и запускать код, управлять компьютерами и совершать автономные многоступенчатые действия.
Изначальная «теория изменений» Anthropic строилась на принципе условных обязательств: «если модель достигает уровня X, мы внедряем защиту Y». Компания надеялась, что это станет стандартом для индустрии и подтолкнет правительства к действиям. Система уровней безопасности (AI Safety Level, ASL) предполагала градацию от базовых мер (ASL-2) до защиты от угроз национального масштаба (ASL-4 и выше).
Детали: что пошло не так, а что сработало
Anthropic провела ревизию своих успехов и неудач.
Что сработало:
- Внутренняя дисциплина. Политика заставила компанию внедрять реальные защитные механизмы. Например, для соответствия уровню ASL-3 (защита от химических и биологических угроз) были разработаны сложные классификаторы входных и выходных данных.
- Влияние на индустрию. OpenAI и Google DeepMind приняли похожие фреймворки вскоре после публикации первой RSP Anthropic. Это также повлияло на законодательные инициативы в США и ЕС.
Что не сработало:
- Зона неопределенности. Оказалось, что заранее установленные пороги возможностей слишком размыты. Наука оценки моделей (evaluation science) не дает однозначных ответов «да/нет» о том, перешла ли модель опасную черту. Например, в биологических рисках модели уже проходят простые тесты, но лабораторные испытания занимают так много времени, что к моменту получения результатов уже выходят новые, более мощные модели.
- Пассивность регуляторов. Надежда на то, что правительства быстро вступят в игру, не оправдалась. Политический климат сместился в сторону экономической конкуренции и «гонки вооружений», отодвинув вопросы безопасности на второй план.
- Невозможность одиночных действий. Для высоких уровней угроз (ASL-4 и выше) требуются меры защиты, которые одна частная компания просто не может обеспечить самостоятельно. Например, защита весов модели от государственных хакеров требует помощи национальных спецслужб.
Анализ: смена парадигмы
Обновление RSP v3.0 — это переход от идеализма к прагматизму. Anthropic признает, что попытка в одиночку установить стандарты для защиты от экзистенциальных рисков сталкивается с суровой реальностью рынка и геополитики.
Структурная проблема текущего момента заключается в комбинации трех факторов: технической неопределенности в оценке рисков, анти-регуляторных настроений в политике и физической невозможности реализовать высшие меры защиты в одиночку. Вместо того чтобы писать красивые, но невыполнимые правила для будущих уровней (ASL-4/5), компания решила разделить свои планы на то, что она может сделать сама, и то, где требуется коллективное действие.
Перспектива
Это обновление сигнализирует о важном сдвиге в индустрии. Эпоха, когда ведущие лаборатории могли саморегулироваться и надеяться, что этого достаточно, заканчивается. Мы входим в фазу, где разрыв между возможностями ИИ и способностью общества контролировать их становится критическим.
Anthropic, по сути, говорит: «Мы сделали все, что могли в рамках саморегулирования. Дальше без активного участия государств и международного сообщества гарантировать безопасность невозможно». Это может стать катализатором для более жестких дебатов о том, как именно должно выглядеть государственное вмешательство в разработку передовых технологий, особенно на фоне замедления законодательных инициатив.