Компания IBM анонсировала выпуск Granite 4.0 1B Speech — новейшего дополнения к своей коллекции речевых моделей. Эта система разработана специально для корпоративных приложений, работающих на периферийных устройствах (edge devices) с ограниченными вычислительными ресурсами. Модель предназначена для многоязычного автоматического распознавания речи (ASR) и двунаправленного перевода речи (AST).
В последние годы индустрия искусственного интеллекта была сосредоточена на создании массивных облачных моделей. Однако корпоративный сектор все чаще требует решений, которые могут работать локально. Это связано с необходимостью снижения задержек при обработке данных, экономией на облачных вычислениях и строгими требованиями к конфиденциальности. Семейство моделей Granite от IBM исторически создается именно с прицелом на нужды бизнеса, предлагая баланс между размером и производительностью.
Новая модель Granite 4.0 1B Speech содержит 1 миллиард параметров. Это ровно в два раза меньше, чем у ее предшественницы, версии granite-speech-3.3-2b. Несмотря на уменьшенный размер, система демонстрирует более высокую точность транскрибирования английского языка. Ускорение вывода (inference) достигается за счет использования метода спекулятивного декодирования (speculative decoding).
Модель поддерживает английский, французский, немецкий, испанский, португальский и японский языки. Важным нововведением стала поддержка распознавания японской речи и функция смещения списка ключевых слов (keyword list biasing). Последняя позволяет системе лучше распознавать специфические имена и аббревиатуры, что является частым запросом от корпоративного сообщества. Модель уже заняла первое место в таблице лидеров OpenASR, что подтверждает ее конкурентоспособность среди открытых систем.
Успех Granite 4.0 1B Speech показывает, что оптимизация архитектуры и качественные обучающие данные способны компенсировать сокращение количества параметров. Показатель частоты ошибок в словах (WER) у этой модели остается на уровне или даже превосходит результаты систем, которые значительно превосходят ее по размеру. Лицензия Apache 2.0 и встроенная поддержка популярных библиотек, таких как transformers и vLLM, делают интеграцию модели в существующие продукты максимально простой.
В ближайшем будущем мы увидим дальнейший сдвиг в сторону компактных, специализированных моделей для решения конкретных задач. IBM рекомендует использовать новую речевую модель в связке с Granite Guardian для обеспечения безопасности и выявления рисков в производственных средах. Это указывает на формирование комплексных, но легковесных конвейеров искусственного интеллекта, которые бизнес сможет развертывать на собственном оборудовании без оглядки на облачных гигантов.