MMLU
Определение
MMLU (Massive Multitask Language Understanding) — бенчмарк для оценки знаний и способности к рассуждению LLM по 57 предметным областям.
Простое объяснение
MMLU — как единый экзамен для AI по всем предметам сразу: от физики до истории искусств. Показывает, насколько модель "образованна".
Подробнее
Связанные термины
Knowledge Graph
Граф знаний — структура данных, представляющая информацию в виде сети связанных сущностей и отношений между ними, используемая для улучшения AI-систем.
Leaderboard
Leaderboard — таблица рейтингов AI-моделей по результатам стандартизированных бенчмарков, позволяющая сравнивать их производительность.
Question Answering
Question Answering (QA) — задача автоматического ответа на вопросы на естественном языке на основе текста или базы знаний.
Perplexity (метрика)
Perplexity — метрика качества языковой модели, показывающая, насколько модель "удивлена" тестовыми данными. Чем ниже perplexity, тем лучше модель.
