Сингапур скопирован: NVIDIA заменила население на 888 000 цифровых клонов
Зачем рисковать утечками реальных данных, если можно создать идеальных «граждан» в пробирке? NVIDIA и AI Singapore показали, как выглядит суверенный ИИ будущего.
Зачем рисковать утечками реальных данных, если можно создать идеальных «граждан» в пробирке? NVIDIA и AI Singapore показали, как выглядит суверенный ИИ будущего.
2 мин

Представьте страну, где живут 888 000 человек. У них есть имена, работа, уровень образования, они живут в конкретных районах и даже соблюдают местные культурные нормы. Но ни одного из них не существует.
Это не сценарий новой «Матрицы», а Nemotron-Personas-Singapore — новый проект NVIDIA и AI Singapore, который решает одну из главных проблем современного ИИ: как обучать модели на локальных данных, не нарушая приватность граждан.
Главная боль разработчиков ИИ сегодня — это данные. Чтобы нейросеть понимала контекст конкретной страны (сленг, культурные коды, демографию), ей нужны терабайты информации. Обычно это заканчивается скандалами с утечками личных данных или бесконечными судами.
NVIDIA пошла другим путем. Вместо того чтобы собирать досье на реальных сингапурцев, они сгенерировали их.
В датасете:
Сингапур делает ставку на «Суверенный ИИ» (Sovereign AI). Идея проста: каждая страна должна иметь свои собственные модели, которые отражают её ценности, а не ценности разработчиков из Кремниевой долины.
Новый датасет позволяет тестировать банковские алгоритмы, медицинских чат-ботов и государственные сервисы на «людях», которые ведут себя как сингапурцы, но чьи права невозможно нарушить.
Это меняет правила игры:
Инженеры использовали «пайплайн» на базе NeMo Data Designer и GPT-OSS-120B. Но самое важное — это статистическое заземление. Персоны не выдуманы из головы, они созданы на основе реальной переписи населения 2024 года и открытых государственных данных. Это математически точная симуляция общества.
Пока весь мир спорит о копирайте и приватности, Сингапур и NVIDIA просто создали параллельную реальность для тренировки алгоритмов. И, кажется, это единственный способ развивать ИИ безопасно.
Синтетические данные становятся «золотым стандартом» для государственного ИИ: они позволяют сохранить культурный контекст и точность, полностью исключив риск утечки персональных данных.
Мы переходим от эпохи Big Data (сбор всего подряд) к эпохе Smart Synthetic Data. В будущем ценность реальных пользовательских данных может упасть, так как синтетика станет чище, безопаснее и дешевле для обучения.