SyGra Studio: Визуальный подход к генерации синтетических данных от ServiceNow
ServiceNow представила SyGra Studio — визуальную среду, которая превращает создание синтетических данных из написания кода в наглядный процесс конструирования потоков.
ServiceNow представила SyGra Studio — визуальную среду, которая превращает создание синтетических данных из написания кода в наглядный процесс конструирования потоков.
3 мин

Подразделение ServiceNow-AI выпустило обновление для своей платформы SyGra (версия 2.0.0), представив новый инструмент — SyGra Studio. Это интерактивная среда, предназначенная для генерации синтетических данных. Главное изменение заключается в смене парадигмы работы: вместо ручного редактирования конфигурационных файлов (YAML) и запуска скриптов через терминал, инженеры теперь могут проектировать потоки данных визуально на «холсте» (canvas).
Этот релиз важен, так как он снижает технический порог входа для создания качественных датасетов. Генерация синтетических данных становится прозрачным инженерным процессом с возможностью предварительного просмотра и отладки в реальном времени.
Синтетические данные играют ключевую роль в современном обучении больших языковых моделей (LLM). Они необходимы, когда реальных данных недостаточно, они слишком дороги для разметки или содержат конфиденциальную информацию. Традиционно создание конвейеров (pipelines) для генерации такой синтетики требовало написания сложного кода для связки различных моделей, промптов и источников данных.
SyGra Studio решает эту проблему, предлагая подход Low-code. Это напоминает эволюцию инструментов для обработки данных (ETL), которые со временем перешли от написания скриптов к визуальным интерфейсам. Инструмент работает поверх существующей платформы SyGra, поэтому все действия в визуальном редакторе автоматически конвертируются в совместимые конфигурации графов и скрипты исполнения.
Studio предлагает полный цикл работы с данными в одном окне. Рассмотрим ключевые этапы работы, которые предлагает инструмент:
1. Настройка источников данных
Процесс начинается с выбора коннектора. Это может быть репозиторий на Hugging Face, локальная файловая система или данные из ServiceNow. Инженер загружает параметры, и система сразу позволяет просмотреть примеры строк. Названия колонок автоматически превращаются в переменные состояния (например, {prompt}, {genre}), которые можно использовать дальше по цепочке.
2. Визуальное построение потока Пользователь перетаскивает блоки на рабочее поле. Основные элементы — это узлы LLM. Например, можно создать узел «Генератор историй», подключить к нему модель (поддерживаются OpenAI, Azure OpenAI, Ollama, Vertex, Bedrock, vLLM), написать промпт с использованием переменных и определить выходные данные. Можно создавать сложные цепочки: например, один узел генерирует текст, а второй — критикует его или суммирует.
3. Исполнение и отладка Самая сильная сторона инструмента — наблюдаемость. Перед запуском полного цикла можно просмотреть код, который сгенерировала студия. Во время выполнения инженер видит стриминг результатов в реальном времени, отслеживает использование токенов, задержку (latency) и стоимость каждого прогона. Все логи и результаты сохраняются для последующего анализа.
С точки зрения архитектуры, SyGra Studio не является «черным ящиком». Это графическая надстройка над кодом. Это критически важно для инженеров, так как позволяет сохранить контроль версий: визуально созданный поток сохраняется как артефакт (YAML/JSON), который можно коммитить в git-репозиторий.
Интересна реализация работы с переменными. Платформа предлагает автодополнение переменных внутри редактора промптов, что исключает частые ошибки ручного ввода. Также стоит отметить поддержку структурированных схем вывода (через Pydantic), что позволяет получать на выходе не просто текст, а валидный JSON, готовый для использования в программных продуктах.
Появление таких инструментов, как SyGra Studio, сигнализирует о взрослении индустрии AI-разработки. Мы переходим от этапа «экспериментов в Jupyter Notebook» к этапу промышленной инженерии данных.
Вероятно, в ближайшем будущем подобные визуальные интерфейсы станут стандартом для команд, занимающихся дообучением (fine-tuning) моделей. Это позволит привлекать к созданию датасетов профильных экспертов, не владеющих программированием, но понимающих предметную область, что существенно повысит качество итоговых моделей.
ServiceNow SyGra Studio заменяет ручное написание скриптов для генерации синтетических данных на визуальный интерфейс, делая процесс доступным и прозрачным.
Инструмент не скрывает код, а генерирует его: это позволяет совместить удобство визуального редактора с надежностью Git-ориентированного рабочего процесса (GitOps).