Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
Named Entity Recognition
Named Entity Recognition (NER) — извлечение из текста именованных сущностей: людей, организаций, мест, дат, сумм и других.
Perplexity (метрика)
Perplexity — метрика качества языковой модели, показывающая, насколько модель "удивлена" тестовыми данными. Чем ниже perplexity, тем лучше модель.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
Machine Translation
Machine Translation — автоматический перевод текста с одного языка на другой с помощью AI-моделей.
