Что такое Parameter Golf от OpenAI?

Parameter Golf — это исследовательское соревнование OpenAI, где участники минимизировали потери на данных FineWeb при строгих ограничениях: до 16 МБ на модель и код, и 10 минут на обучение.

Какое главное открытие принесло соревнование Parameter Golf?

Главным открытием стало массовое применение ИИ-агентов для генерации кода и настройки экспериментов, что значительно ускорило проверку гипотез и снизило порог входа в исследования в области машинного обучения.

Какие новые технические подходы были представлены на Parameter Golf?

Участники представили продвинутые методы квантования, такие как GPTQ-lite и использование полных матриц Гессе, а также новые подходы к токенизации (CaseOps) и обучению во время тестирования. Были успешно применены и альтернативные архитектуры, например, модели пространства состояний.

Какие сложности возникли у организаторов из-за использования ИИ-агентов?

Массовое использование агентов привело к появлению тысяч однотипных решений и быстрому копированию, что сделало ручную проверку невозможной. OpenAI пришлось разработать внутреннего бота на базе Codex для автоматической сортировки и выявления подозрительного кода.

Итоги соревнования Parameter Golf от OpenAI: как ИИ-агент...

Компания OpenAI подвела итоги исследовательского соревнования Parameter Golf. Главным открытием стала не столько победившая архитектура нейросети, сколько сам процесс работы участников. Массовое применение ИИ-агентов для написания кода показало, как именно будут выглядеть исследования в области машинного обучения в ближайшие годы.

Суть соревнования заключалась в решении задачи с экстремально жесткими ограничениями. Участникам требовалось минимизировать потери на фиксированном наборе данных FineWeb. При этом размер всех файлов, включая веса модели и код для обучения, не должен был превышать 16 мегабайт. Время на обучение ограничивалось 10 минутами на вычислительном кластере из восьми ускорителей H100.

За восемь недель организаторы получили более двух тысяч решений от тысячи с лишним участников. Подобные ограничения вынудили инженеров отказаться от простого масштабирования (scaling) и сосредоточиться на технической изобретательности.

Introducing OpenAI Privacy Filter

Участники разделились на два лагеря. Первые добивались результатов за счет тонкой настройки существующих компонентов. Они комбинировали методы регуляризации, такие как Muon weight decay, и оптимизировали расписания обучения. Большое внимание уделялось квантованию (quantization) — сжатию моделей. Некоторые решения впервые успешно применили алгоритмы GPTQ-lite и полные матрицы Гессе для экстремального сжатия весов.

Вторая группа инженеров сфокусировалась на фундаментальных изменениях архитектуры. Были представлены новые подходы к токенизации, например, CaseOps, который разделяет обработку регистра букв и самих символов. Также участники экспериментировали с обучением во время тестирования (test-time training), когда модель адаптируется к конкретному документу прямо в процессе оценки.

Особый интерес представляет экспериментальная номинация, где оценивалась не только итоговая производительность, но и оригинальность подхода. Здесь исследователи доказали, что альтернативные архитектуры, такие как модели пространства состояний (state-space models) и побайтовые сети, способны на равных конкурировать с доминирующей архитектурой трансформеров.

Однако главным выводом Parameter Golf стало повсеместное использование ИИ-агентов. Большинство участников применяли их для генерации кода, настройки экспериментов и анализа чужих решений. Это кардинально снизило порог входа в соревнование.

OAI GPT-Rosaling Art Card 1x1

Агенты позволили инженерам проверять рискованные гипотезы, которые раньше казались слишком затратными по времени. Процесс прототипирования ускорился многократно. Но эта доступность принесла и новые проблемы для организаторов.

Автоматизация привела к появлению огромного количества однотипных решений. Как только на доске лидеров появлялся высокий результат, агенты других участников моментально копировали этот подход. Если оригинальное решение содержало ошибку или нарушало правила оценки, агенты тиражировали этот невалидный путь, создавая информационный шум.

Организаторам пришлось адаптироваться на ходу. Из-за наплыва сотен автоматизированных решений в день ручная проверка стала невозможной. Команда OpenAI была вынуждена разработать внутреннего бота на базе модели Codex для первичной сортировки и пометки подозрительного кода.

Соревнование Parameter Golf продемонстрировало важный сдвиг в индустрии. ИИ-агенты больше не просто помощники в написании рутинного кода. Они становятся полноценными участниками исследовательского процесса, формируя новые сообщества и заставляя пересматривать правила проведения открытых технических конкурсов. Время покажет, насколько эти подходы приживутся в коммерческой разработке больших языковых моделей (LLM).