Synthetic Data
Определение
Синтетические данные — искусственно сгенерированные данные, имитирующие реальные, используемые для обучения AI при недостатке или конфиденциальности реальных данных.
Простое объяснение
Это когда AI создаёт «придуманные» данные, которые выглядят как настоящие, для обучения других AI.
Подробнее
Применение синтетических данных:
- Приватность — замена персональных данных
- Редкие случаи — генерация edge cases
- Балансировка — выравнивание классов
- Разметка — автоматическая аннотация
Генераторы: NVIDIA Omniverse, Mostly AI, Gretel.
Связанные термины
Named Entity Recognition
Named Entity Recognition (NER) — извлечение из текста именованных сущностей: людей, организаций, мест, дат, сумм и других.
Хранилище данных
Хранилище данных (Data Warehouse) — централизованная система для хранения и анализа больших объёмов структурированных данных для бизнес-аналитики и AI.
Leaderboard
Leaderboard — таблица рейтингов AI-моделей по результатам стандартизированных бенчмарков, позволяющая сравнивать их производительность.
MMLU
MMLU (Massive Multitask Language Understanding) — бенчмарк для оценки знаний и способности к рассуждению LLM по 57 предметным областям.
