Распознавание речи
Определение
Распознавание речи (ASR) — технология AI для преобразования устной речи в текст, основа голосовых ассистентов и транскрипции.
Простое объяснение
Это когда программа слушает голос и записывает всё в текст — как если бы кто-то очень быстро печатал за говорящим.
Подробнее
Современные ASR-системы:
- Whisper — OpenAI, открытый, многоязычный
- Google Speech-to-Text — облачный сервис
- AWS Transcribe — Amazon
- AssemblyAI — API для разработчиков
Точность современных систем превышает 95%.
Связанные термины
GPU
Graphics Processing Unit — специализированный процессор, изначально созданный для графики, но оказавшийся идеальным для обучения нейросетей благодаря способности выполнять тысячи параллельных вычислений.
OpenAI
OpenAI — американская AI-компания, создатель ChatGPT, GPT-4, DALL-E и других прорывных AI-систем, лидер индустрии генеративного AI.
API (Application Programming Interface)
Интерфейс программирования приложений — набор правил и протоколов для взаимодействия между различными программами и сервисами.
Ollama
Ollama — инструмент для простого локального запуска больших языковых моделей одной командой, с поддержкой популярных моделей и API, совместимым с OpenAI.
