Tokenmaxxing: почему гонка за токенами в Claude Code — плохая метрика продуктивности разработчиков
Кто бы мог подумать, что можно найти еще худшую метрику продуктивности разработчиков, чем «строки кода»?
Похоже, разработчики Facebook, активно использующие AI-кодинг, придумали термин «Claudeonomics» для оценки того, насколько они «в теме». Это вылилось во внутреннюю панель с рейтингом тех, кто сжигал больше всего токенов в Claude Code. Началась гонка за максимальное потребление токенов.
Неважно, приносило ли это хоть какой-то полезный результат. На графике просто появлялись поводы для хвастовства: лидеров называли «Token Legend» и «Cache Wizard».
Похожие вещи происходили в Microsoft и Salesforce.
Это лишь очередная глава в старой как мир битве — и это очень плохая идея.
Максимально плохо
Управлять разработчиками и без того непросто. И одна из главных причин в том, что процесс написания программного обеспечения трудно — если не невозможно — измерить.
И это не из-за отсутствия попыток. Мы измеряли строки кода, story points, часы, проведенные за столом, часы на задачу, число исправленных багов в неделю и бог знает что еще. Никакая из этих метрик, похоже, не работает, и все они в итоге поддаются манипуляциям.
Вот почему мы не делаем себе одолжение, когда начинаем заниматься «tokenmaxxing».
Во-первых, измерение «сожженных токенов» само по себе ничего не говорит. Во-вторых, если сделать количество сожженных токенов целью, мы уже знаем, что происходит дальше. Люди начнут жестко накручивать систему, и затем вступит в силу закон Гудхарта. Оказалось, что разработчики Facebook — как сборщики кобр в Индии — использовали инструменты вроде OpenClaw, чтобы сжигать огромные объемы токенов без всякой цели.
В-третьих, и это хуже всего, заметить это могут менеджеры в угловом кабинете. Руководители вечно ищут лучший способ измерять разработчиков, и если они увидят такую панель, то вполне могут ухватиться за идею. А после этого все очень быстро пойдет под откос.
Новые «строки кода»
Использование токенов легко считать, оно отлично выглядит на дашборде и совершенно бесполезно почти для всего, кроме понимания того, сколько электроэнергии прогнали через GPU. Я уже вижу, как в головах руководителей формируются OKR, пока пишу это. Единственное, чего нам не хочется увидеть, — это слайд на встрече с инвесторами, где бодро объявят: «Пропускная способность токенов выросла на 30% год к году!»
И, как и со строками кода, в целом верно, что максимизация потребления токенов — это скорее отрицательный показатель качества и успеха. Заставлять Claude Code тратить больше токенов может приводить к худшим результатам, чем аккуратное управление ресурсами и удержание coding agent в рамках задачи. Мы не хотим, чтобы использование токенов стало новой бессмысленной занятостью, когда разработчики сжигают ресурсы, а руководители похлопывают их по плечу, пока графики использования ползут вверх и вправо — без какого-либо толка.
Не прошло и много времени, как об этом стало известно, и Facebook свернула эксперимент.
И они правильно сделали, что среагировали быстро. У tokenmaxxing нет плюсов — это извращенный стимул.
Tokenmaxxing — это просто «строки кода», но в смокинге. Или, лучше сказать, в костюме клоуна.
Материал — перевод статьи с английского.
Оригинал: Tokenmaxxing is super dumb