Выход Claude Sonnet 5: автономность уровня флагманов по д...

Компания Anthropic выпустила новую версию своей языковой модели среднего уровня — Claude Sonnet 5. Главная особенность новинки заключается в ее выраженных агентных возможностях (agentic capabilities). Модель способна самостоятельно планировать действия, использовать инструменты вроде браузера и терминала, а также автономно выполнять задачи, которые еще недавно требовали применения более крупных и дорогих систем.

Исторически для многих разработчиков эра автономного ИИ началась именно с моделей класса Sonnet (версии 3.5, 3.6 и 3.7). Они первыми продемонстрировали уверенные навыки написания кода и использования внешних инструментов. Однако в последнее время наиболее заметный прогресс в этой области наблюдался у более тяжелых моделей класса Opus. Sonnet 5 призвана сократить этот разрыв.

Claude Sonnet 5 benchmark table

Согласно данным разработчиков, производительность Sonnet 5 вплотную приближается к показателям флагманской модели Opus 4.8, но при этом новинка предлагается по значительно более низкой цене. Модель демонстрирует существенное улучшение по сравнению со своим предшественником, Sonnet 4.6, в таких критически важных аспектах, как логическое мышление, использование инструментов, программирование и работа со знаниями.

Финансовая сторона вопроса делает модель особенно привлекательной для бизнеса. Базовая стоимость использования через программный интерфейс (API) составит 3 доллара за миллион входных токенов и 15 долларов за миллион выходных. До конца августа действует ознакомительная цена: 2 и 10 долларов соответственно. Это предоставляет разработчикам широкий выбор на кривой соотношения цены и качества, позволяя находить оптимальный баланс усилий модели для конкретных задач.

Отдельного внимания заслуживает подход к безопасности. Внутренние тесты показали, что Sonnet 5 демонстрирует более низкий уровень нежелательного поведения по сравнению с предыдущей версией. Модель лучше справляется с отказами от выполнения вредоносных запросов и успешнее противостоит попыткам перехвата управления (prompt injection).

Изображение из источника

Интересно, что Anthropic намеренно не обучала модель задачам кибербезопасности. В тестах на создание программных эксплоитов Sonnet 5 показала крайне низкие результаты, не сумев разработать ни одного полностью рабочего эксплоита. Тем не менее, из-за общего роста интеллектуальных способностей, модель стала чуть чаще добиваться частичного успеха в подобных задачах. В ответ на это компания по умолчанию активировала системы защиты в реальном времени, аналогичные тем, что используются в серии Opus.

Первые партнеры, получившие ранний доступ к модели, отмечают ее высокую надежность в многошаговых задачах. Модель способна доводить сложные процессы до конца, самостоятельно проверять собственные результаты без явных подсказок пользователя и эффективно работать с запутанным или устаревшим кодом (brownfield code).

Выход Claude Sonnet 5 означает важный сдвиг в индустрии. Создание надежных автономных агентов, способных выполнять рутинную работу в браузере, терминале или корпоративных системах, становится экономически целесообразным для гораздо более широкого круга компаний. Разработчикам больше не нужно выбирать между высокой ценой флагманских моделей и недостаточной надежностью более дешевых аналогов.