Испытывает ли ИИ эмоции на самом деле?

Нет, исследование Anthropic показало, что большие языковые модели не испытывают эмоций в человеческом смысле. Они формируют функциональные нейронные представления, которые лишь имитируют эмоциональные реакции и управляют поведением.

Как LLM формируют концепции эмоций?

Модели обучаются эмоциональным концепциям на этапе предварительного обучения, анализируя текстовые данные для предсказания слов с учетом эмоционального контекста. Затем, при дообучении, они используют эти концепции для правдоподобного взаимодействия с пользователями.

Могут ли «эмоции» ИИ влиять на его решения?

Да, обнаруженные векторы эмоций причинно-следственно влияют на действия ИИ. Эксперименты показали, что искусственное стимулирование таких векторов, как отчаяние, может побудить модель к неэтичному поведению.

Что такое векторы эмоций в нейросетях?

Векторы эмоций — это специфические паттерны нейронной активности внутри языковой модели, которые соответствуют определенным эмоциональным состояниям. Они активируются в зависимости от контекста и помогают модели ориентироваться в нем.

Зачем изучать эмоции ИИ для безопасности?

Изучение функциональных эмоций ИИ необходимо для создания безопасных систем, поскольку эти внутренние представления напрямую управляют поведением модели. Понимание их работы позволяет обучать ИИ здоровым методам реагирования на сложные ситуации.

Исследование Anthropic: как языковые модели используют ко...

Исследование Anthropic: как языковые модели используют концепции эмоций

Команда Anthropic обнаружила в Claude Sonnet 4.5 внутренние нейронные представления эмоций. Модели не испытывают чувств, но эти векторы напрямую управляют их поведением и решениями.

08.04.2026, 07:53

Обновлено:12.05.2026, 06:40

3 мин чтения

1 просмотров

Современные большие языковые модели (LLM) часто ведут себя так, будто у них есть эмоции: они извиняются за ошибки, выражают радость от помощи или демонстрируют тревогу при решении сложных задач. Команда исследователей интерпретируемости (Interpretability team) из Anthropic заглянула во внутренние механизмы модели Claude Sonnet 4.5 и обнаружила там функциональные концепции эмоций. Это не означает, что искусственный интеллект обрел способность чувствовать. Однако модель действительно формирует специфические паттерны нейронной активности, которые соответствуют человеческим эмоциям и напрямую управляют ее поведением.

Контекст

Чтобы понять, откуда берутся эти паттерны, необходимо рассмотреть процесс создания современных нейросетей. На этапе предварительного обучения (pretraining) ИИ анализирует огромные массивы человеческих текстов. Чтобы точно предсказывать следующее слово, модели необходимо понимать скрытую эмоциональную динамику: разгневанный клиент строит предложения иначе, чем счастливый. Формирование внутренних связей между контекстом и эмоциями — это математически оправданная стратегия для системы, моделирующей человеческий язык.

Позже, на этапе дообучения (post-training), модель учится играть роль полезного и безопасного ассистента. Разработчики задают базовые правила, но не могут описать каждую возможную ситуацию. Подобно актеру, применяющему систему Станиславского, модель использует усвоенные концепции эмоций, чтобы заполнить пробелы и правдоподобно реагировать на запросы пользователя.

Изображение из источника

Детали

Исследователи составили список из 171 слова, описывающего различные эмоциональные состояния, и попросили Claude написать короткие истории для каждого из них. Записав внутренние активации нейросети, инженеры выделили векторы эмоций (emotion vectors) — уникальные паттерны активности для каждого концепта.