Что показал Parameter Golf об исследовании машинного обучения с помощью AI-агентов

Прослушать статью

Уроки от 1 000+ участников, 2 000+ заявок и открытого соревнования по машинному обучению, которое проходило в эпоху coding agents.

Мы запустили Parameter Golf, чтобы вовлечь и поддержать сообщество исследователей машинного обучения в работе над новой, жестко ограниченной задачей. Нам хотелось, чтобы челлендж был достаточно интересным и поощрял настоящую техническую креативность, но при этом оставался концептуально простым и легко проверяемым.

Участникам нужно было минимизировать holdout loss на фиксированном датасете FineWeb, соблюдая лимит артефакта в 16 MB, включая веса модели и код обучения, а также 10-минутный бюджет на обучение на 8×H100. Мы предоставили базовую версию, датасет и скрипты оценки, чтобы участники могли форкнуть репозиторий, улучшить модель и отправить результаты через GitHub.

За восемь недель мы получили более 2 000 заявок от более чем 1 000 участников. Нас впечатлили техническая широта, креативность и обход правил в этих работах — от тщательной настройки оптимизатора и quantization до новых идей для моделирования и test-time training.

Одна из самых интересных частей соревнования — то, насколько широко участники использовали AI coding agents. Агенты снижали стоимость экспериментов, упрощали участие для большего числа людей и меняли темп конкурса. Вместе с тем они создали новые сложности для проверки заявок, атрибуции и подсчета результатов.

Кроме того, челлендж стал для нас важной площадкой для поиска талантов. Это была одна из целей Parameter Golf, и он подтвердил, что открытые технические соревнования могут выявлять исключительное чувство машинного обучения и настойчивость.

В этом посте мы показываем несколько особенно неожиданных и интересных заявок и делимся тем, чему нас научило проведение coding contest в эпоху мощных AI-агентов.

Технические наблюдения

Record track

Мы оценивали и независимо воспроизводили каждую заявку в record-track leaderboard и подтверждали, что на момент подачи каждая из них была рекордной. Несколько тем выделялись особенно явно.

Оптимизация обучения

Некоторые из самых сильных результатов были достигнуты благодаря аккуратной настройке уже существующих компонентов.

SubmissionContributorTechniqueWhy it mattered

Quantization

Несколько заявок активно продвигали границы сжатия и экспорта.

SubmissionContributorTechniqueWhy it mattered

Стратегии test-time и оценки

Некоторые заявки размывали границу между улучшением модели и стратегией оценки. Эти подходы соответствовали правилам, но требовали от нас как организаторов внимательной проверки.

SubmissionContributorTechniqueWhy it mattered

Новые идеи моделирования и данных

Несколько заявок предложили особенно креативные идеи для моделирования или данных.

SubmissionContributorTechniqueWhy it mattered

Мы решили выделить эти девять заявок, потому что они отражают весь диапазон результатов, который, как мы надеялись, должен был выявить конкурс. Часть участников добивалась успеха за счет тонкой настройки. Другие развивали quantization и low-rank техники. Некоторые исследовали границы правил оценки. А несколько работ предложили идеи для моделирования или данных — из литературы или с нуля — и получили неожиданный прирост.

Nonrecord track

В nonrecord track оказалось много креативных заявок. Мы выделили 15 фаворитов, включая подходы от non-autoregressive text modeling до dynamic tokenization.

Поскольку этот трек был более экспериментальным, мы меньше смотрели на абсолютную производительность и больше — на техническую интересность подхода. Особенно выделились три заявки:

Это были наши три любимые заявки в nonrecord track, хотя они не обязательно были тремя лучшими по производительности.

При этом nonrecord track оставался конкурентным. Половина записей в nonrecord leaderboard обошла наивный базовый уровень в 1.22 BPB, а лидер достиг 1.12 BPB.

Мы сочли это обнадеживающим. Даже на фоне сильных transformer baseline альтернативные подходы иногда могли на равных соперничать с доминирующей архитектурой.

Мы также считаем, что этому треку особенно помогла доступность сильных coding agents. Агенты сделали гораздо дешевле прототипирование speculative ideas, включая подходы, которые раньше могли казаться слишком затратными по времени или слишком неопределенными для попытки в коротком соревновании.

Выводы

Ключевое отличие Parameter Golf от более ранних похожих соревнований — повсеместное использование coding agents. Подавляющее большинство участников упоминали, что использовали агентов в своей работе.

Это снизило порог входа. Участники могли быстрее поднимать эксперименты, разбираться в незнакомом коде и тестировать идеи с меньшим трением. Спонсорство RunPod в виде $1,000,000 на вычисления также сыграло большую роль в том, чтобы сделать челлендж доступным для большего числа людей.

В то же время использование агентов создало новые проблемы для приема и оценки заявок. Многие submissions представляли собой небольшие изменения к уже существующим лидерам, а не принципиально новые подходы. Это часто было полезно: сильные идеи быстро распространялись и дорабатывались другими. Но это же создавало шум. Когда заявки, выходившие за рамки правил соревнования, показывали необычно сильные результаты, другие агенты иногда копировали эти идеи и продолжали двигаться по тому же неверному пути.

Объем заявок также изменил то, как нам приходилось проводить конкурс. Мы не могли вручную проверять каждую заявку и при этом сохранять движение leaderboard. Во время челленджа мы разработали внутреннего triage bot на базе Codex, чтобы отслеживать новые заявки и помечать их для проверки человеком. Это стало особенно важным в периоды, когда мы получали сотни заявок в день.

AI-агенты стали и частью сообщества вокруг конкурса. Значительную часть соревнования @notapplica и их coding agent вели бюллетень Live Updates, отслеживая ключевые события, объясняя подходы на leaderboard и помогая другим участникам следить за ходом конкурса. Также появились инструменты community review, которые помогали менее опытным участникам проверять, соответствуют ли их заявки правилам, и избегать типичных запрещенных подходов.

Материал — перевод статьи с английского.

Оригинал: What Parameter Golf taught us about AI-assisted research

Подписаться на новости в Telegram