Компания Stability AI представила новый исследовательский проект под названием Stable-Layers. Это фреймворк на базе обучения с подкреплением (reinforcement learning), который позволяет нейросетям качественно разделять плоские изображения на отдельные слои. Главная особенность подхода заключается в том, что он полностью избавляет разработчиков от необходимости собирать огромные наборы данных, где каждому изображению соответствуют заранее подготовленные слои.
Исторически задача декомпозиции изображений — то есть разделения готовой картинки на фон, объекты и текст — требовала так называемого парного контроля (paired supervision). Исследователям приходилось собирать тысячи исходных файлов из графических редакторов, чтобы показать нейросети связь между плоской картинкой и ее слоями. Это дорогой, долгий и трудно масштабируемый процесс. Stable-Layers предлагает элегантное решение: использовать визуально-языковые модели (VLM) в качестве автоматических оценщиков, которые направляют обучение.
В основе системы лежит предварительно обученная модель Qwen-Image-Layered. Инженеры применили к ней метод оптимизации Flow-GRPO с использованием адаптации LoRA. Процесс выглядит следующим образом: для каждого изображения модель генерирует несколько вариантов разделения на слои. Затем визуально-языковая модель оценивает эти варианты, а алгоритм обновляет веса основной сети, опираясь на относительные преимущества лучших результатов в группе.
Ключевая техническая проблема, с которой столкнулась команда, заключалась в разработке надежного сигнала вознаграждения. Когда VLM оценивает сгенерированные слои изолированно друг от друга, она склонна сжимать свои оценки в очень узкий диапазон. Из-за этого алгоритму GRPO не хватает дисперсии внутри группы для эффективного обучения — системе сложно понять, какой вариант действительно лучше.
Для решения этой проблемы исследователи разработали двухэтапный конвейер оценки. На первом этапе происходит структурированная оценка каждого примера по пяти критериям, ориентированным на редактирование. На втором этапе применяется сеточная калибровка: VLM заново оценивает все кандидаты, сравнивая их бок о бок. Это позволяет получить четкую разницу в баллах и дать алгоритму правильный вектор для оптимизации.
Результаты показывают, что Stable-Layers превосходит базовую модель. На наборе данных Crello новая система демонстрирует более сильное разделение слоев, генерирует меньше пустых слоев или слоев с артефактами, а также показывает более низкую ошибку реконструкции.
Для индустрии это означает важный сдвиг. Мы видим, как визуально-языковые модели становятся полноценными участниками процесса обучения других нейросетей. Использование VLM в качестве функции вознаграждения открывает путь к созданию сложных графических инструментов без необходимости ручной разметки данных.
В перспективе подобные технологии могут кардинально изменить работу дизайнеров и редакторов. Автоматическое и точное извлечение слоев из любого растрового изображения позволит быстро анимировать статические картинки, переводить 2D-графику в 3D-сцены и создавать умные инструменты для редактирования фотографий, которые понимают структуру кадра так же хорошо, как профессиональный художник.