Датасет
Определение
Датасет — набор данных, используемый для обучения, валидации и тестирования AI-моделей.
Простое объяснение
Это набор данных для обучения AI — как учебник с примерами и правильными ответами.
Подробнее
Характеристики качественного датасета:
- Размер — достаточный объём данных
- Качество — чистые, корректные данные
- Репрезентативность — отражает реальность
- Разметка — правильные метки
Известные датасеты: ImageNet, Common Crawl, The Pile.
Связанные термины
Perplexity (метрика)
Perplexity — метрика качества языковой модели, показывающая, насколько модель "удивлена" тестовыми данными. Чем ниже perplexity, тем лучше модель.
Семантический поиск
Семантический поиск — поиск информации по смыслу, а не по ключевым словам, с использованием эмбеддингов и векторных баз данных.
Big Data
Большие данные — массивы информации огромного объёма, которые невозможно обработать традиционными методами, но которые служат основой для обучения AI-моделей.
Knowledge Graph
Граф знаний — структура данных, представляющая информацию в виде сети связанных сущностей и отношений между ними, используемая для улучшения AI-систем.
