Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
Named Entity Recognition
Named Entity Recognition (NER) — извлечение из текста именованных сущностей: людей, организаций, мест, дат, сумм и других.
Knowledge Graph
Граф знаний — структура данных, представляющая информацию в виде сети связанных сущностей и отношений между ними, используемая для улучшения AI-систем.
Question Answering
Question Answering (QA) — задача автоматического ответа на вопросы на естественном языке на основе текста или базы знаний.
Хранилище данных
Хранилище данных (Data Warehouse) — централизованная система для хранения и анализа больших объёмов структурированных данных для бизнес-аналитики и AI.
