Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
Question Answering
Question Answering (QA) — задача автоматического ответа на вопросы на естественном языке на основе текста или базы знаний.
BLEU/ROUGE
BLEU и ROUGE — классические метрики для оценки качества генерации текста путём сравнения с эталонными ответами.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
Leaderboard
Leaderboard — таблица рейтингов AI-моделей по результатам стандартизированных бенчмарков, позволяющая сравнивать их производительность.
