Text-to-Speech
Определение
Text-to-Speech (TTS) — технология преобразования текста в естественно звучащую речь с помощью нейронных сетей.
Простое объяснение
TTS — как профессиональный диктор, который может прочитать любой текст естественным голосом. Только этот диктор — искусственный интеллект.
Подробнее
Связанные термины
Sora
Sora — модель генерации видео от OpenAI, способная создавать реалистичные видеоролики до минуты по текстовому описанию.
Gemini
Gemini — мультимодальное семейство AI-моделей от Google DeepMind, объединяющее понимание текста, изображений, аудио и видео.
DALL-E
DALL-E — модель генерации изображений от OpenAI, названная в честь художника Дали и робота WALL-E.
Diffusion Models
Диффузионные модели — класс генеративных моделей, которые учатся создавать данные путём постепенного удаления шума из случайного входа.
