Speech-to-Text
Определение
Speech-to-Text (STT) — технология автоматического распознавания речи и преобразования её в текст.
Простое объяснение
STT — как стенографист, который мгновенно записывает всё, что вы говорите. Только работает 24/7, не устаёт и понимает сотню языков.
Подробнее
Связанные термины
Языковая модель
Языковая модель — AI-система, обученная понимать и генерировать текст на естественном языке, предсказывая вероятность следующего слова или токена.
Context Window
Контекстное окно — максимальный объём текста (в токенах), который языковая модель может обработать за один раз, включая входной запрос и генерируемый ответ.
Vision-Language Model
Vision-Language Model — мультимодальная модель, способная обрабатывать и понимать как изображения, так и текст, отвечая на вопросы о визуальном контенте.
Фундаментальная модель
Фундаментальная модель — большая AI-модель общего назначения, обученная на огромных данных и адаптируемая для множества задач.
