Чтение мыслей нейросетей: как Anthropic переводит внутренние процессы ИИ на человеческий язык
Компания Anthropic представила Natural Language Autoencoders — метод, позволяющий преобразовывать скрытые математические состояния языковых моделей в понятный текстовый формат.

Суть
Компания Anthropic разработала новый метод интерпретируемости искусственного интеллекта под названием Natural Language Autoencoders (NLA). Эта технология позволяет переводить внутренние состояния языковой модели, представленные в виде сложных массивов чисел, в обычный человеческий текст. По сути, исследователи получили инструмент, который дает возможность читать скрытые «мысли» модели Claude до того, как она сформирует окончательный ответ. Это критически важное достижение для понимания того, как именно нейросети принимают решения.
Контекст
Когда пользователь общается с языковой моделью, текст преобразуется во внутренние математические репрезентации, называемые активациями. Долгое время эти активации оставались «черным ящиком». В последние годы исследователи создали ряд инструментов, таких как разреженные автоэнкодеры (sparse autoencoders), чтобы заглянуть внутрь этого процесса. Однако результаты их работы представляли собой сложные структуры, требующие длительной расшифровки специалистами. Новый подход Anthropic меняет парадигму: теперь инструмент интерпретации сам говорит на естественном языке, устраняя необходимость в сложной ручной дешифровке.

Изображение из источника
Детали
Архитектура NLA состоит из трех ключевых компонентов. Первый — это целевая модель (замороженная копия оригинальной нейросети), из которой извлекаются активации. Второй — вербализатор активаций, который переводит числовой массив в текстовое объяснение. Третий — реконструктор активаций, который пытается восстановить исходный числовой массив, опираясь исключительно на сгенерированный текст.









