Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
MMLU
MMLU (Massive Multitask Language Understanding) — бенчмарк для оценки знаний и способности к рассуждению LLM по 57 предметным областям.
Knowledge Graph
Граф знаний — структура данных, представляющая информацию в виде сети связанных сущностей и отношений между ними, используемая для улучшения AI-систем.
Summarization
Summarization — автоматическое создание краткого изложения длинного текста с сохранением ключевой информации.
Sentiment Analysis
Sentiment Analysis — автоматическое определение эмоциональной окраски текста: позитивной, негативной или нейтральной.
