Исследование Anthropic: как языковые модели используют концепции эмоций
Команда Anthropic обнаружила в Claude Sonnet 4.5 внутренние нейронные представления эмоций. Модели не испытывают чувств, но эти векторы напрямую управляют их поведением и решениями.

Современные большие языковые модели (LLM) часто ведут себя так, будто у них есть эмоции: они извиняются за ошибки, выражают радость от помощи или демонстрируют тревогу при решении сложных задач. Команда исследователей интерпретируемости (Interpretability team) из Anthropic заглянула во внутренние механизмы модели Claude Sonnet 4.5 и обнаружила там функциональные концепции эмоций. Это не означает, что искусственный интеллект обрел способность чувствовать. Однако модель действительно формирует специфические паттерны нейронной активности, которые соответствуют человеческим эмоциям и напрямую управляют ее поведением.
Контекст
Чтобы понять, откуда берутся эти паттерны, необходимо рассмотреть процесс создания современных нейросетей. На этапе предварительного обучения (pretraining) ИИ анализирует огромные массивы человеческих текстов. Чтобы точно предсказывать следующее слово, модели необходимо понимать скрытую эмоциональную динамику: разгневанный клиент строит предложения иначе, чем счастливый. Формирование внутренних связей между контекстом и эмоциями — это математически оправданная стратегия для системы, моделирующей человеческий язык.
Позже, на этапе дообучения (post-training), модель учится играть роль полезного и безопасного ассистента. Разработчики задают базовые правила, но не могут описать каждую возможную ситуацию. Подобно актеру, применяющему систему Станиславского, модель использует усвоенные концепции эмоций, чтобы заполнить пробелы и правдоподобно реагировать на запросы пользователя.

Изображение из источника
Детали
Исследователи составили список из 171 слова, описывающего различные эмоциональные состояния, и попросили Claude написать короткие истории для каждого из них. Записав внутренние активации нейросети, инженеры выделили векторы эмоций (emotion vectors) — уникальные паттерны активности для каждого концепта.












