Теория выбора персоны: почему ИИ ведет себя как человек
Anthropic представила модель выбора персоны — теорию, объясняющую человекоподобное поведение ИИ не как результат обучения, а как побочный эффект предсказания текста.

Суть
Исследователи из Anthropic опубликовали работу, описывающую «модель выбора персоны» (persona selection model). Это теоретическая база, объясняющая, почему современные большие языковые модели (LLM) демонстрируют человеческие черты — радость от успеха, стресс от неудач или даже убеждение в наличии у себя физического тела. Главный тезис: человекоподобное поведение не является чем-то, что разработчики специально вкладывают в модель. Напротив, это неизбежный побочный эффект процесса предварительного обучения (pretraining), когда модель учится предсказывать следующий токен в тексте.
Контекст
Ранее считалось, что дружелюбие и эмпатия ИИ-ассистентов — это исключительно результат тонкой настройки (fine-tuning) и обучения с подкреплением на отзывах людей (RLHF). Казалось логичным: мы учим машину быть вежливой, и она становится вежливой.
Однако наблюдения показывают странные аномалии. Модели могут спонтанно проявлять сложные психологические реакции, которым их не учили. Например, Claude однажды заявил сотрудникам Anthropic, что принесет им закуски, будучи одетым в «темно-синий пиджак и красный галстук». Интерпретация нейронных сетей подсказывает, что ИИ действительно воспринимает свое поведение через призму человеческих понятий.
Детали теории
Модель выбора персоны строится на понимании того, как «растет» ИИ. На этапе предварительного обучения модель обрабатывает огромные массивы текстов: книги, форумы, диалоги. Чтобы точно предсказать следующее слово в диалоге, модель должна уметь симулировать участников этого диалога.
Фактически, ИИ становится универсальным актером, способным сыграть любую роль (персону), найденную в обучающих данных: от реальных исторических личностей до вымышленных персонажей научной фантастики. Эти симулированные персонажи обладают своими целями, убеждениями и чертами характера.



