Модели Claude осваивают химию: анализ спектров ЯМР на уровне специализированного ПО
Исследователи из Anthropic научили языковую модель анализировать спектры ядерного магнитного резонанса, сравнив ее результаты с традиционными инструментами химиков.
Исследователи из Anthropic научили языковую модель анализировать спектры ядерного магнитного резонанса, сравнив ее результаты с традиционными инструментами химиков.
3 мин

Компания Anthropic опубликовала результаты первого исследования, направленного на интеграцию возможностей своих языковых моделей в повседневную работу химиков. В центре внимания оказался анализ спектров ядерного магнитного резонанса (ЯМР) — одного из самых распространенных и трудоемких аналитических методов в синтетической химии.
Понимание структуры молекулы критически важно. От того, как соединены атомы, зависят свойства вещества: будет ли оно лекарством или ядом. Химики постоянно переводят информацию между разными форматами: набросками на доске, показаниями приборов и строками запросов в базах данных. Этот процесс требует времени и высокой концентрации.
Инструменты машинного обучения (ML) уже много лет позиционируются как решение для прогнозирования реакций и ретросинтеза — планирования пути создания молекулы от конечного продукта к простым исходным веществам. Однако развитие тормозилось качеством данных. Химические данные часто имеют непоследовательный формат, скрыты за пейволлами научных журналов или представлены в виде неструктурированной информации.
Современные большие языковые модели (LLM) меняют правила игры. Они мультимодальны и способны к явному рассуждению. Модель может считать химическую структуру прямо из рисунка в статье или распознать экспериментальные детали в том виде, в котором они опубликованы.

A graph of the four scaffold classes
Исследователи протестировали три версии модели Claude (Opus 4.7, Opus 4.6 и Sonnet 4.6) в сравнении с классическим программным обеспечением для химиков — ChemDraw и MestReNova. Чтобы избежать искажений из-за наличия данных в обучающей выборке, для тестов отобрали 20 новых соединений из препринтов, опубликованных после завершения обучения моделей.
Перед системами поставили задачу прямого прогнозирования: на основе текстового описания структуры (в формате SMILES) предсказать, как будет выглядеть одномерный спектр ЯМР для водорода и углерода.
Результаты показали высокую конкурентоспособность новых моделей:

A graphic depicting the per-tool MAE/RMSE summary across 20 compounds
Помимо прямого прогнозирования, исследователи протестировали Opus 4.7 на более сложной задаче — определении структуры молекулы по готовому спектру. Модели предоставили точную молекулярную формулу и спектры ЯМР для 15 задач разной сложности. Это именно та работа, которую химики обычно выполняют вручную, опираясь на свой опыт и интуицию.
Мы наблюдаем, как языковые модели выходят за рамки работы с текстом и кодом, становясь полезными ассистентами в точных науках. Способность ИИ брать на себя рутинную работу по переводу данных между форматами и первичной интерпретации спектров не заменяет суждение ученого, но существенно дополняет его.
В перспективе такие инструменты могут значительно ускорить процессы разработки новых лекарств, материалов и химических соединений, снимая с исследователей часть когнитивной нагрузки при анализе экспериментальных данных.
Языковые модели способны решать узкоспециализированные задачи аналитической химии на уровне профессионального программного обеспечения.
Главное преимущество новых моделей в химии — не доступ к огромным базам данных, а способность к мультимодальному рассуждению и чтению неструктурированной информации из научных статей.