Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
Question Answering
Question Answering (QA) — задача автоматического ответа на вопросы на естественном языке на основе текста или базы знаний.
Семантический поиск
Семантический поиск — поиск информации по смыслу, а не по ключевым словам, с использованием эмбеддингов и векторных баз данных.
Perplexity (метрика)
Perplexity — метрика качества языковой модели, показывающая, насколько модель "удивлена" тестовыми данными. Чем ниже perplexity, тем лучше модель.
Semantic Segmentation
Semantic Segmentation — классификация каждого пикселя изображения по принадлежности к семантическому классу.
