Суть события
Компания Anthropic опубликовала детальный отчет о масштабной кампании по «дистилляции» своих моделей. Три крупные китайские AI-лаборатории — DeepSeek, Moonshot и MiniMax — были уличены в систематическом извлечении возможностей модели Claude для обучения собственных систем. Речь идет о более чем 16 миллионах запросов, сгенерированных через 24 000 фиктивных аккаунтов. Это не просто нарушение пользовательского соглашения, а пример промышленного шпионажа в эпоху искусственного интеллекта, который позволяет конкурентам получать передовые возможности за долю стоимости и времени, необходимых для самостоятельной разработки.
Что такое дистилляция и почему это важно
Дистилляция (distillation) — это метод обучения, при котором менее мощная модель («студент») учится, подражая ответам более продвинутой модели («учителя»). В легальном поле это стандартная практика: компании часто дистиллируют собственные огромные модели в более компактные и дешевые версии для клиентов.
Однако в данном случае процесс использовался незаконно. Иностранные лаборатории использовали Claude как «учителя» без разрешения, чтобы быстро подтянуть свои модели до уровня американских разработок. Это позволяет обходить экспортные ограничения на передовые чипы: если вы не можете купить достаточно вычислительных мощностей для обучения модели с нуля, вы можете значительно сократить затраты ресурсов, обучая ее на уже готовых высококачественных данных, полученных от конкурента.
Детали расследования
Anthropic выявила три отдельные кампании, каждая из которых имела свой почерк:
- DeepSeek (более 150 000 обменов): Фокусировались на способностях к рассуждению. Они использовали запросы, заставляющие Claude расписывать ход своих мыслей шаг за шагом (chain-of-thought), фактически создавая идеальные обучающие данные. Также модель использовали для создания ответов, обходящих цензуру, вероятно, для обучения собственных фильтров.
- Moonshot AI (более 3,4 млн обменов): Масштабная операция, нацеленная на навыки программирования, анализа данных и использования инструментов. Атака была сложной для обнаружения из-за использования множества типов аккаунтов, но метаданные указали на старших сотрудников компании.
- MiniMax (более 13 млн обменов): Самая массовая кампания, направленная на навыки написания кода. Anthropic наблюдала за процессом в реальном времени: когда они выпустили новую версию модели, MiniMax перенастроил половину своего трафика на нее менее чем за 24 часа.
Для доступа к API использовались сложные схемы с прокси-серверами и «кластерами гидры» (hydra clusters) — сетями из тысяч аккаунтов, где блокировка одного не останавливала работу всей системы.
Анализ последствий
Этот инцидент подсвечивает критическую уязвимость текущей экосистемы ИИ. Во-первых, «дистиллированные» модели часто теряют встроенные механизмы безопасности. Если оригинальная модель имеет защиту от создания вредоносного кода или биологического оружия, то ее скопированная версия может быть лишена этих тормозов, что создает риски национальной безопасности.
Во-вторых, это ставит под сомнение эффективность экспортного контроля. Быстрый прогресс некоторых зарубежных моделей может быть результатом не столько внутренних инноваций, сколько эффективного копирования знаний из западных систем. Ограничение доступа к чипам работает, но кража «интеллекта» модели позволяет частично компенсировать нехватку железа.
Что будет дальше
Anthropic усиливает меры защиты, внедряя классификаторы поведения и «отпечатки» (fingerprinting) для выявления паттернов дистилляции. Компания также начала делиться техническими индикаторами атак с другими игроками рынка и облачными провайдерами.
Вероятно, мы увидим ужесточение верификации для доступа к мощным моделям (KYC — знай своего клиента) и появление новых стандартов защиты интеллектуальной собственности в сфере ИИ. Гонка вооружений переходит из фазы «у кого больше чипов» в фазу «кто лучше защитит свои веса и данные».
Очевидно, что проблема требует скоординированного ответа индустрии и регуляторов, так как ни одна компания не способна остановить подобные атаки в одиночку.