Contamination
Определение
Contamination (утечка данных) — проблема попадания тестовых данных в обучающую выборку, что приводит к завышенным результатам на бенчмарках.
Простое объяснение
Contamination — как студент, который случайно увидел экзаменационные вопросы заранее. Его высокая оценка не отражает реальных знаний, только хорошую память.
Подробнее
Связанные термины
MMLU
MMLU (Massive Multitask Language Understanding) — бенчмарк для оценки знаний и способности к рассуждению LLM по 57 предметным областям.
Text Classification
Text Classification — автоматическое присвоение текстам категорий или меток на основе их содержания.
Recommendation System
Recommendation System — алгоритм, предсказывающий предпочтения пользователя и предлагающий релевантный контент или продукты.
Семантический поиск
Семантический поиск — поиск информации по смыслу, а не по ключевым словам, с использованием эмбеддингов и векторных баз данных.
