Что такое Stable-Layers и для чего он нужен?

Stable-Layers — это исследовательский проект от Stability AI, представляющий собой фреймворк для автоматического разделения плоских изображений на редактируемые слои. Его основная цель — упростить декомпозицию изображений без необходимости ручной разметки данных.

Как Stable-Layers удается разделять изображения без размеченных данных?

Система использует предварительно обученную модель и визуально-языковые модели (VLM) в качестве автоматических оценщиков. VLM анализируют сгенерированные варианты разделения на слои, а алгоритм обучения с подкреплением обновляет веса основной сети, опираясь на эти оценки.

Какие возможности Stable-Layers открывает для дизайнеров и редакторов?

Эта технология позволяет автоматически и точно извлекать слои из любых растровых изображений, что упрощает анимацию статических картинок и перевод 2D-графики в 3D-сцены. В перспективе это приведет к созданию умных инструментов для редактирования, понимающих структуру кадра.

Разделение изображений на слои без размеченных данных: ка...

Q: В чем главное преимущество Stable-Layers перед традиционными методами?

Ключевое преимущество Stable-Layers заключается в отказе от трудоемкого сбора парных данных, где каждому изображению соответствуют заранее подготовленные слои. Фреймворк использует визуально-языковые модели для автоматической оценки и направления обучения нейросети.

Разделение изображений на слои без размеченных данных: как работает Stable-Layers от Stability AI

Stability AI представила фреймворк Stable-Layers, который использует визуально-языковые модели для обучения нейросетей разделять плоские изображения на редактируемые слои без парных данных.

07.06.2026, 18:18

Обновлено:08.06.2026, 08:56

2 мин чтения

0 просмотров

Компания Stability AI представила новый исследовательский проект под названием Stable-Layers. Это фреймворк на базе обучения с подкреплением (reinforcement learning), который позволяет нейросетям качественно разделять плоские изображения на отдельные слои. Главная особенность подхода заключается в том, что он полностью избавляет разработчиков от необходимости собирать огромные наборы данных, где каждому изображению соответствуют заранее подготовленные слои.

Исторически задача декомпозиции изображений — то есть разделения готовой картинки на фон, объекты и текст — требовала так называемого парного контроля (paired supervision). Исследователям приходилось собирать тысячи исходных файлов из графических редакторов, чтобы показать нейросети связь между плоской картинкой и ее слоями. Это дорогой, долгий и трудно масштабируемый процесс. Stable-Layers предлагает элегантное решение: использовать визуально-языковые модели (VLM) в качестве автоматических оценщиков, которые направляют обучение.

В основе системы лежит предварительно обученная модель Qwen-Image-Layered. Инженеры применили к ней метод оптимизации Flow-GRPO с использованием адаптации LoRA. Процесс выглядит следующим образом: для каждого изображения модель генерирует несколько вариантов разделения на слои. Затем визуально-языковая модель оценивает эти варианты, а алгоритм обновляет веса основной сети, опираясь на относительные преимущества лучших результатов в группе.

Ключевая техническая проблема, с которой столкнулась команда, заключалась в разработке надежного сигнала вознаграждения. Когда VLM оценивает сгенерированные слои изолированно друг от друга, она склонна сжимать свои оценки в очень узкий диапазон. Из-за этого алгоритму GRPO не хватает дисперсии внутри группы для эффективного обучения — системе сложно понять, какой вариант действительно лучше.

Для решения этой проблемы исследователи разработали двухэтапный конвейер оценки. На первом этапе происходит структурированная оценка каждого примера по пяти критериям, ориентированным на редактирование. На втором этапе применяется сеточная калибровка: VLM заново оценивает все кандидаты, сравнивая их бок о бок. Это позволяет получить четкую разницу в баллах и дать алгоритму правильный вектор для оптимизации.

Результаты показывают, что Stable-Layers превосходит базовую модель. На наборе данных Crello новая система демонстрирует более сильное разделение слоев, генерирует меньше пустых слоев или слоев с артефактами, а также показывает более низкую ошибку реконструкции.

Для индустрии это означает важный сдвиг. Мы видим, как визуально-языковые модели становятся полноценными участниками процесса обучения других нейросетей. Использование VLM в качестве функции вознаграждения открывает путь к созданию сложных графических инструментов без необходимости ручной разметки данных.

В перспективе подобные технологии могут кардинально изменить работу дизайнеров и редакторов. Автоматическое и точное извлечение слоев из любого растрового изображения позволит быстро анимировать статические картинки, переводить 2D-графику в 3D-сцены и создавать умные инструменты для редактирования фотографий, которые понимают структуру кадра так же хорошо, как профессиональный художник.

Разделение изображений на слои без размеченных данных: как работает Stable-Layers от Stability AI

07.06.2026, 18:18

Обновлено:08.06.2026, 08:56

2 мин чтения

0 просмотров

Разделение изображений на слои без размеченных данных: как работает Stable-Layers от Stability AI

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Как работают циклы верификации в Claude Code: автоматизация рутинных проверок

Трэвис Каланик привлекает 1.7 млрд долларов на создание индустриального ИИ в проекте ATOMS

Фонд экономических исследований ИИ: подготовка общества к глобальной автоматизации

Гайды по теме

Разделение изображений на слои без размеченных данных: как работает Stable-Layers от Stability AI

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Как работают циклы верификации в Claude Code: автоматизация рутинных проверок

Трэвис Каланик привлекает 1.7 млрд долларов на создание индустриального ИИ в проекте ATOMS

Фонд экономических исследований ИИ: подготовка общества к глобальной автоматизации

Гайды по теме