NVIDIA выпустила Nemotron 3 Content Safety 4B — мультимодальную модель для модерации контента
NVIDIA представила компактную модель на базе Gemma-3 для проверки безопасности текста и изображений с учетом сложного культурного и языкового контекста.
NVIDIA представила компактную модель на базе Gemma-3 для проверки безопасности текста и изображений с учетом сложного культурного и языкового контекста.
3 мин

Компания NVIDIA представила Nemotron 3 Content Safety 4B — новую открытую модель для модерации контента. В отличие от большинства существующих решений, она способна анализировать не только текст, но и изображения, а также их комбинации. Модель поддерживает более 140 языков и разработана специально для интеграции в современные ИИ-приложения и агентные системы, где требуется высокая скорость реакции.
Стремительное развитие больших языковых моделей (LLM) и визуально-языковых моделей (VLM) привело к появлению автономных ИИ-агентов. Сегодня они работают со скриншотами, PDF-документами, диаграммами и фотографиями в реальном времени.
Предыдущие системы безопасности были преимущественно текстовыми и обучались в основном на англоязычных данных. Они плохо справлялись с запросами на других языках и часто упускали важные культурные нюансы. По мере интеграции ИИ в критически важные бизнес-процессы потребность в надежных механизмах защиты, способных понимать контекст на стыке разных форматов данных, многократно возросла.
Nemotron 3 Content Safety построена на базе фундаментальной модели Gemma-3 4B-IT. Инженеры NVIDIA дообучили ее с помощью адаптера LoRA, добавив функции классификации безопасности, но сохранив легковесность и эффективность базовой архитектуры.
Ключевая особенность модели — понимание неаддитивного смысла. Часто смысл мультимодального ввода нельзя понять, оценивая его части по отдельности. Например, фотография обычного кухонного ножа абсолютно безопасна. Но если к ней добавлен текст с угрозой применения этого предмета для нанесения вреда, комбинация становится нарушением правил.
Модель также учитывает культурный контекст. Изображение традиционной свастики с текстом о празднике может быть абсолютно приемлемым в индийской культуре, но та же комбинация на немецком языке может трактоваться как разжигание ненависти.
Для обучения использовался набор данных Nemotron Safety Guard Dataset v3. База включает реальные изображения, скриншоты, документы и текст. Около 10% обучающей выборки составили синтетические данные (SDG), сгенерированные с помощью моделей Mixtral 8x 22B, Gemma 3-27B и Microsoft Phi-4. Это помогло добавить сложные сценарии, такие как попытки взлома (jailbreak) и специфические отказы.
По результатам тестов (Polyguard, RTP-LX, VLGuard и других) модель демонстрирует точность 84% при выявлении мультимодального вредоносного контента, превосходя сопоставимые открытые аналоги.
Однако главное преимущество Nemotron 3 заключается в скорости. Для агентных систем проверка безопасности не должна замедлять основной цикл работы. Новая модель показывает примерно вдвое меньшую задержку по сравнению с более крупными мультимодальными системами защиты. Она способна работать в реальном времени даже на видеокартах с 8 ГБ памяти (VRAM).
Появление быстрых, компактных и мультимодальных фильтров безопасности открывает путь к созданию более надежных глобальных ИИ-продуктов. Разработчикам больше не нужно полагаться исключительно на англоязычные текстовые фильтры, которые дают сбои при работе с изображениями.
Модель уже доступна на платформе Hugging Face для использования через стандартные интерфейсы transformers или vLLM. В апреле NVIDIA планирует выпустить ее в виде готового к промышленной эксплуатации микросервиса NVIDIA NIM, что еще больше упростит интеграцию безопасного ИИ в корпоративные инфраструктуры.
NVIDIA создала компактную и быструю модель для модерации контента, способную анализировать связь между текстом и изображениями с учетом культурных особенностей разных стран.
Безопасность мультимодального контента неаддитивна: безобидное изображение и нейтральный текст могут образовывать опасную комбинацию, требующую глубокого понимания контекста, а не простого поиска стоп-слов.