Какой тест использовала Anthropic для оценки инженеров?

Anthropic применяла сложный экзамен по низкоуровневой оптимизации кода для симулятора ускорителя. Он требовал глубоких знаний работы с памятью, VLIW-архитектурой и SIMD-инструкциями.

Насколько хорошо Claude 4.5 справился с экзаменом Anthropic?

Claude 4.5 не просто прошел тест, но и обнаружил критическое узкое место в пропускной способности памяти, предложив уникальное решение для его обхода. Модель достигла результатов лучших инженеров, но значительно быстрее.

Какую проблему создает превосходство ИИ в технических тестах для индустрии?

Основная проблема заключается в размывании границ между человеческим гением и посредственностью, использующей ИИ. Становится крайне сложно отличить истинные навыки кандидата от результатов, полученных с помощью языковых моделей.

Остались ли области, где инженеры превосходят Claude в оптимизации кода?

Да, люди все еще могут превзойти Claude в задачах с неограниченным временем. В таких условиях инженеры способны создавать сложные мини-компиляторы и находить решения, до которых ИИ пока не додумался.

Гонка проиграна: Claude 4.5 уничтожил экзамен для сеньоров

Представьте ситуацию: вы создаете сложнейший экзамен, чтобы нанять лучших инженеров мира. Вы делаете его настолько трудным, что большинство кандидатов отсеиваются на старте. А потом ваш собственный продукт приходит и решает этот экзамен за час. Именно в такой сюрреалистичной ловушке оказалась команда Anthropic.

Тристан Хьюм, ведущий инженер по производительности в Anthropic, раскрыл неудобную правду: традиционные методы оценки технических навыков мертвы. С 2024 года компания использовала специальное тестовое задание — симулятор ускорителя, где нужно было оптимизировать код на низком уровне. Это не банальные задачи с LeetCode, а хардкорная работа с памятью, VLIW-архитектурой и SIMD-инструкциями. Более 1000 человек прошли через это сито, и десятки лучших были наняты.

Но затем появился Claude Opus 4. Он решил задачу лучше большинства людей за отведенные 4 часа. Хьюм усложнил тест. Убрал легкие части, добавил глубины. Это работало несколько месяцев, пока не пришел Claude Opus 4.5.

Результат шокирует: новая модель не просто прошла тест. Она нашла «непреодолимое» узкое место в пропускной способности памяти, о которое ломали зубы люди, и придумала трюк для его обхода. В итоге ИИ сравнялся с лучшими человеческими результатами, но сделал это быстрее и без усталости. То, что раньше считалось элитным уровнем понимания системной архитектуры, теперь стало базовой функцией модели.

Это создает фундаментальную проблему для всей индустрии. Если ИИ решает тестовое задание лучше кандидата, как отличить гения от посредственности, использующего ИИ? Граница размылась. В условиях ограниченного времени (2 часа) модель теперь неотличима от топ-перформера.

Единственная надежда для человечества, по словам Хьюма — это задачи с неограниченным временем. Когда людям дают бесконечный таймлайн, они все еще могут превзойти Claude, создавая сложные мини-компиляторы и находя решения, до которых модель пока не додумалась. Но давайте честно: много ли в реальном бизнесе задач с бесконечным дедлайном?

Anthropic выложили этот тест в открытый доступ как вызов. Это больше не инструмент найма, это памятник эпохе, когда код писал только человек. Мы вошли в фазу, где способность писать оптимизированный код перестала быть уникальным преимуществом белкового интеллекта.

Гонка проиграна: Claude 4.5 уничтожил экзамен для сеньоров

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

NVIDIA смещает фокус на пост-обучение: как платформа Vera Rubin меняет экономику агентного ИИ

Оценка эффективности ИИ: OpenAI предлагает новую систему метрик для бизнеса

Amazon запускает управляемые базы знаний в Bedrock: упрощение RAG для корпоративных данных

Гайды по теме