Суть события
Исследовательская группа Epoch AI совместно с Sentinel Bio выпустила масштабный отчет, в котором проанализировала базу данных из 1196 моделей искусственного интеллекта, применяемых в биологии. Это модели, созданные или обновленные после сентября 2024 года. Главный вывод исследования вызывает тревогу у специалистов по биобезопасности: подавляющее большинство этих инструментов не имеют задокументированных оценок рисков или встроенных механизмов защиты.
Это важно, потому что биологический ИИ — это технология двойного назначения. Те же алгоритмы, что помогают разрабатывать новые лекарства, теоретически могут быть использованы для создания токсинов или модификации патогенов. Отсутствие культуры безопасности на ранних этапах развития отрасли может привести к серьезным уязвимостям в будущем.
Контекст
Биология становится одной из главных арен для применения ИИ. Если раньше мы говорили в основном о генерации текста или картинок, то теперь нейросети проектируют белки и молекулы. Две самые популярные категории в базе данных Epoch AI — это белковая инженерия (protein engineering) и дизайн малых биомолекул (small biomolecule design). Вместе они составляют почти половину всех изученных моделей.
Ранее в индустрии не было единого реестра, позволяющего оценить масштаб и характеристики таких разработок. Epoch AI собрали данные, используя автоматизированный поиск по научным статьям и препринтам, с последующей ручной проверкой наиболее значимых проектов.
Детали и цифры
Статистика, представленная в отчете, указывает на значительный разрыв между темпами разработки и внедрением стандартов безопасности:
- Низкий уровень оценки рисков: Только 2,5% всех моделей имеют задокументированную процедуру оценки рисков перед релизом. Лишь 2,3% сообщают о проведении тестов, связанных с безопасностью.
- Отсутствие защитных механизмов: Защитные барьеры (safeguards) обнаружены только у 3,2% моделей. Причем, если исключить из выборки большие языковые модели (LLM) общего назначения, этот показатель падает до 1,4%.
- Открытость кода: Около 58% проектов публикуют код для использования модели, 46% делятся данными для обучения, но полные веса моделей (open weights) доступны только в 23% случаев.
- География и игроки: Лидерами по количеству разработок являются США и Китай. При этом университеты выпускают больше моделей количественно, но корпорации доминируют в сегменте «значимых» (notable) моделей, которые публикуются в топовых журналах и имеют высокое цитирование.
Анализ ситуации
Данные показывают, что индустрия биологического ИИ находится на стадии «дикого Запада». Академическая среда, которая производит основной объем моделей, традиционно ориентирована на открытость и публикацию результатов, а не на закрытие уязвимостей. Процедуры Red Teaming (тестирование на проникновение и злонамеренное использование), ставшие стандартом для компаний вроде OpenAI или Anthropic, в академической биоинформатике практически отсутствуют.
Интересно наблюдение о фундаментальных моделях: около 20% всех новых инструментов не создаются с нуля, а являются дообученными версиями (finetuned) существующих систем. Самым популярным семейством базовых моделей является ESM-2 (языковая модель для белков). Это означает, что безопасность базовой модели критически важна, так как ее уязвимости наследуются сотнями производных инструментов.
Перспектива
В ближайшее время стоит ожидать усиления регуляторного давления на разработчиков биологического ИИ. Отчет Epoch AI дает фактическую базу для законодателей, показывая, что саморегулирование в этой сфере пока не работает эффективно.
Вероятно, мы увидим разделение стандартов. Для «значимых» моделей, способных проектировать функциональные биологические агенты, могут быть введены обязательные процедуры оценки рисков (KYC для пользователей, фильтрация запросов на синтез ДНК). Для узкоспециализированных академических инструментов требования могут остаться мягче, но тренд на закрытие весов моделей (closed weights) в целях безопасности, скорее всего, усилится.