Anthropic представила BioMysteryBench: новый стандарт оценки ИИ в биоинформатике
Компания разработала инструмент для проверки исследовательских способностей больших языковых моделей на реальных биологических данных, исключающий человеческую субъективность.

Суть
Компания Anthropic представила BioMysteryBench — новый бенчмарк для оценки способностей больших языковых моделей (LLM) в области биоинформатики. Инициатива направлена на решение фундаментальной проблемы ИИ-индустрии: как объективно измерить способность нейросетей проводить реальные научные исследования, а не просто сдавать стандартизированные экзамены.
Контекст
На ранних этапах развития языковых моделей их возможности оценивали с помощью тестов, имитирующих человеческие экзамены. Бенчмарки вроде MMLU или GPQA проверяли экспертные знания и способность к логическому выводу. Позже появились более сложные тесты, такие как LAB-Bench или SciGym, которые пытались симулировать лабораторную среду.

Graph of accuracy on human-solvable problems
Однако настоящая наука устроена иначе. Исследовательская работа в биологии требует чтения научных статей, запросов к базам данных, написания кода и анализа зашумленных наборов данных. Кроме того, оценка научных результатов сталкивается с тремя проблемами. Во-первых, в биологии существует множество правильных способов решения одной и той же задачи. Во-вторых, индивидуальные решения ученых субъективны и могут приводить к разным выводам при работе с одними и теми же данными. В-третьих, самые важные вопросы — это те, на которые у человечества пока нет ответов.
Детали
BioMysteryBench включает 99 вопросов из различных областей биоинформатики, составленных профильными экспертами. Главная особенность бенчмарка заключается в его архитектуре:












