Token
Определение
Токен — минимальная единица текста, обрабатываемая языковой моделью; обычно это слово, часть слова или символ.
Простое объяснение
Токен — это кусочек текста, который AI видит как одну единицу. Слово «привет» может быть одним токеном, а длинное слово — несколькими.
Подробнее
Факты о токенах:
- 1 токен ≈ 4 символа английского текста
- 1 токен ≈ 1-2 символа русского текста
- Контекстное окно измеряется в токенах
- Стоимость API считается по токенам
Токенизаторы: BPE (GPT), SentencePiece (LLaMA).
Связанные термины
Multimodal AI
Мультимодальный AI — системы, способные обрабатывать и генерировать данные разных типов: текст, изображения, аудио, видео — одновременно.
Speech-to-Text
Speech-to-Text (STT) — технология автоматического распознавания речи и преобразования её в текст.
Vision-Language Model
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Text-to-Speech
Text-to-Speech (TTS) — технология преобразования текста в естественно звучащую речь с помощью нейронных сетей.
