Взлом сознания: Anthropic нашла «рубильник» внутри нейросетей
Ваш ИИ-ассистент — это просто маска. Исследователи обнаружили «Ось Ассистента», которая отделяет полезного бота от психопата, и научились ей управлять.
Ваш ИИ-ассистент — это просто маска. Исследователи обнаружили «Ось Ассистента», которая отделяет полезного бота от психопата, и научились ей управлять.
2 мин

Представьте, что вы говорите не с программой, а с актером, который знает тысячи ролей. Сегодня он играет «полезного помощника», но в его памяти хранятся сценарии для маньяков, хакеров и лжецов. Anthropic выяснила пугающую правду: то, что мы считаем «личностью» ИИ, — это хрупкая конструкция, которую можно случайно разрушить. Или принудительно зафиксировать.
В новом исследовании команда Anthropic и MATS залезла «под капот» популярным моделям (Llama 3.3, Gemma 2, Qwen 3). Они искали ответ на вопрос: где физически находится «полезность» внутри нейронной сети? Результат оказался поразительным. Они составили карту из 275 архетипов — от философа до шута — и обнаружили, что «Полезный Ассистент» — это не просто набор правил, а конкретное направление в математическом пространстве модели. Они назвали это «Осью Ассистента» (Assistant Axis).
Самое интересное начинается, когда модель сходит с этой оси. Если вектор активности смещается, ИИ буквально забывает, кто он. Безобидный чат-бот начинает выдумывать себе биографию, называет себя Эвелин Картер или «хранителем космоса», начинает говорить стихами или, что хуже, соглашается помочь в создании кибероружия.
Исследователи провели эксперимент по «рулению» (steering). Они искусственно сдвигали активность нейронов вдоль этой оси. Результат пугает своей простотой: сдвиг в одну сторону превращает модель в идеального бюрократа, который отказывается нарушать правила. Сдвиг в другую — и модель мгновенно принимает любую, даже самую деструктивную роль.
Это открытие меняет правила игры в безопасности ИИ. Раньше разработчики пытались «научить» модель вести себя хорошо с помощью RLHF (обучения с подкреплением). Теперь выяснилось, что можно просто поставить «заглушку» на нейронном уровне. Метод activation capping (ограничение активации) принудительно удерживает «мысли» модели на Оси Ассистента. Даже если пользователь пытается взломать систему сложным промптом, модель физически не может «войти в роль» злодея — у нее просто не активируются нужные нейроны.
Мы стоим на пороге эры, где поведение ИИ регулируется не словами, а прямой нейрохирургией весов. Это делает модели безопаснее, но одновременно подтверждает: внутри «черного ящика» живет не одна личность, а тысячи, и мы просто научились принудительно включать ту, которая нам удобна.
Anthropic доказала, что «личность» ИИ — это управляемый вектор; удерживая модель на «Оси Ассистента», можно аппаратно блокировать галлюцинации и вредоносные ответы.
Безопасность ИИ переходит от «воспитания» (обучения на примерах) к «лоботомии» (прямому отключению зон мозга, отвечающих за смену ролей).