Transformer
Определение
Трансформер — архитектура нейронной сети с механизмом внимания (attention), ставшая основой современных языковых моделей и генеративного AI.
Простое объяснение
Это особая конструкция AI, которая умеет смотреть на весь текст сразу и понимать связи между словами, даже если они далеко друг от друга.
Подробнее
Ключевые элементы трансформера:
- Self-attention — связь между всеми токенами
- Multi-head attention — несколько потоков внимания
- Positional encoding — учёт позиции токенов
- Feed-forward — обработка каждого токена
Статья «Attention Is All You Need» (2017) — начало эры LLM.
Связанные термины
Neural Network
Нейронная сеть — вычислительная система, вдохновлённая структурой мозга, состоящая из связанных узлов (нейронов), обрабатывающих информацию слоями.
MoE
Mixture of Experts — архитектура нейросети, состоящая из множества специализированных подсетей (экспертов) и маршрутизатора, который направляет входные данные к наиболее подходящим экспертам.
Latent Space
Latent Space — многомерное пространство скрытых представлений, где нейросеть кодирует семантику данных.
Нейронная сеть
Вычислительная система, вдохновлённая биологическими нейронными сетями мозга, состоящая из слоёв искусственных нейронов.
