Speech-to-Text

Whisper от OpenAI стал стандартом open-source STT, поддерживая 100+ языков с высоким качеством. Модель обучена на 680k часов аудио и устойчива к шуму, акцентам, техническим терминам. Faster-Whisper и whisper.cpp оптимизируют inference. Коммерческие решения: Deepgram, AssemblyAI, Google Speech-to-Text. Современные системы поддерживают real-time транскрипцию, speaker diarization (разделение говорящих), пунктуацию. Применения: субтитры, meeting notes, voice interfaces.

Определение

Простое объяснение

Подробнее

Связанные термины

Multimodal AI

Промпт

Фундаментальная модель

Mistral

Prompt Engineering

ControlNet