Оригинал: arXiv:2604.05868
Авторы: Xiangming Gu, Soham De, Larisa Markeeva, Petar Velickovic, Razvan Pascanu (Google DeepMind, National University of Singapore)
Дата: 7 апреля 2026
В чём суть
Когда нужно решить сложную задачу - математическую олимпиаду или написать код - языковые модели рассуждения (LRM) могут ошибаться с первого раза. Есть два способа повысить качество:
- Параллельный сэмплинг - запустить модель N раз независимо, собрать все ответы, выбрать лучший (голосованием или проверкой тестами)
- Последовательный сэмплинг - дать модели свой предыдущий ответ и попросить "подумай ещё раз, исправь ошибки"
Интуитивно кажется, что второй способ должен быть лучше - модель учится на своих ошибках. Но исследователи Google DeepMind доказали обратное: параллельный сэмплинг стабильно побеждает на математике и в генерации кода. И объяснили почему.
Как проверяли
Авторы протестировали оба подхода на нескольких моделях:
- Qwen3-14B - открытая модель рассуждения
- DeepSeek-R1-Distill (Qwen-14B и Qwen-7B) - дистиллированные модели
- Gemini 2.5 Flash - модель Google
Задачи - два бенчмарка:
- AIME2025 - 30 задач математических олимпиад (ответ - число от 0 до 999)
- LiveCodeBench v5 - 167 задач по программированию (41 простая, 52 средних, 74 сложных)
Для параллельного сэмплинга генерировали 64 решения и выбирали лучшее голосованием. Для последовательного - 8 раундов, каждый раз давая модели предыдущий ответ с обратной связью.
Результаты
Параллельный сэмплинг победил во всех экспериментах:
- На AIME2025 с Qwen3-14B: параллельный достигает 80%+ точности, последовательный застревает на 73-75%
- На LiveCodeBench с Gemini 2.5 Flash: параллельный - 72%+, последовательный - 60-65%
- Разрыв особенно заметен на сложных задачах - именно там, где "подумать ещё раз" должно помогать больше всего
Почему так происходит
Авторы проверили три гипотезы:
1. Дело в агрегации? Нет. Даже когда к последовательным решениям применяли тот же метод голосования, параллельный всё равно побеждал. Агрегация помогает, но не объясняет разрыв.
2. Дело в длинном контексте? Нет. Авторы добавляли в контекст параллельного сэмплинга до 32K нерелевантных токенов - производительность не падала. Длина контекста не является причиной.
3. Модели становятся "ленивыми"? Да. Это главная причина. При последовательном сэмплинге модели:
- Тратят в 2 раза меньше токенов на размышления чем при параллельном
- Генерируют ответы, почти идентичные предыдущим (косинусное сходство 0.97-0.99)
- Буквально копируют структуру и ключевые элементы предыдущего решения
Авторы визуализировали механизм через карты внимания: в модели активируются так называемые "induction heads" - специальные головы внимания, которые копируют паттерны из предыдущих ответов. Модель буквально смотрит на свой прошлый ответ и воспроизводит его, вместо того чтобы искать новый путь решения.
Что это значит на практике
Для всех, кто использует AI-агентов в разработке или бизнесе:
- Если нужен качественный результат - запускайте модель несколько раз параллельно и выбирайте лучший ответ. Это эффективнее, чем просить "исправь свой ответ"
- "Подумай ещё раз" часто не работает - модель не переосмысливает решение, а копирует предыдущее с минимальными изменениями
- Для сложных задач разрыв особенно велик - именно там, где вы больше всего рассчитываете на самокоррекцию
- Best-of-N подход дешевеет - стоимость API падает, и параллельная генерация 8-16 вариантов становится экономически выгодной
Это подтверждает тренд в индустрии: Claude Code, Cursor и другие AI-кодинг агенты всё чаще используют параллельную генерацию с автоматической проверкой тестами вместо цепочек самокоррекции.
Ограничения
- Тестировали только на математике и коде - в творческих задачах (написание текста, дизайн) результаты могут отличаться
- Последовательный сэмплинг с идеальной обратной связью (результаты приватных тестов) сокращает разрыв - но такая обратная связь редко доступна на практике
- Механистический анализ (induction heads) проведён только на Qwen3-14B - для других архитектур может быть иначе