Архитектура Stable Audio 3: как новый автоэнкодер SAME меняет локальную генерацию звука
Stability AI представила семейство моделей Stable Audio 3 для генерации и редактирования звука переменной длины, открыв веса для локального запуска на пользовательском оборудовании.

Stability AI анонсировала выпуск Stable Audio 3, нового семейства скрытых диффузионных моделей (latent diffusion models) для создания и редактирования звука. Это важное событие для индустрии, так как разработчики не только улучшили качество генерации, но и сделали технологию доступной для запуска на домашних компьютерах.
Долгое время генерация звука с помощью нейросетей сталкивалась с двумя проблемами: высокой вычислительной стоимостью и фиксированной длиной треков. Если пользователю нужен был короткий звуковой эффект, модели часто тратили ресурсы на создание длинного фрагмента, который затем приходилось обрезать. Stable Audio 3 решает эту проблему, предлагая генерацию переменной длины.
В основе новых моделей лежит архитектура, представленная в трех версиях: малой, средней и большой. Ключевым нововведением стал семантически выровненный музыкальный автоэнкодер (Semantically-Aligned Music Autoencoder, SAME). Эта технология сжимает исходный звук в компактное скрытое пространство (latent space), сохраняя при этом не только акустическое качество звучания, но и смысловую, музыкальную структуру аудио.
Благодаря использованию SAME диффузионные модели могут работать значительно эффективнее. Кроме того, разработчики применили метод состязательного дообучения (adversarial post-training). Это позволило сократить количество шагов, необходимых для генерации (inference), улучшив при этом качество звука и точность следования текстовым запросам.
Скорость работы новых моделей впечатляет. На профессиональном ускорителе NVIDIA H200 создание звука занимает менее двух секунд. На пользовательском ноутбуке Apple MacBook Pro с чипом M4 этот процесс длится всего несколько секунд. Такая производительность открывает возможности для использования моделей в реальном времени.
Stability AI также добавила поддержку функции достраивания звука (inpainting). Теперь пользователи могут точечно редактировать аудиофайлы, заменять определенные фрагменты или продолжать уже существующие короткие записи. Это превращает систему из простого генератора в полноценный инструмент для саунд-дизайна.
Важным аспектом является происхождение обучающей выборки. Модели Stable Audio 3 обучены исключительно на лицензированных материалах и данных с лицензией Creative Commons. Это снижает юридические риски для профессионалов, которые планируют использовать сгенерированные звуки в коммерческих проектах.



