Мир AI-токенов: что это такое и почему они важны
Когда речь идет об AI, токены — это валюта. Вот как понимать их значение для пользователей и поставщиков AI.
У Google есть лишь один способ измерять феноменальный рост AI, который компания наблюдает: в токенах.
Компания обрабатывает 3,2 квадриллиона токенов в месяц, заявил CEO Google Сундар Пичаи на этой неделе во время доклада на I/O, добавив: «Никогда не думал, что скажу слово “квадриллион”… но вот мы здесь».
По сути, токены — это единица измерения, которую large language models (LLMs) используют для обработки данных.
Токены, которые называли «новой нефтью», подпитывающей AI-революцию, — это также способ, которым поставщики AI могут учитывать использование и назначать цены на свои сервисы. Предприятия охотятся за токенами и тратят на них миллиарды, чтобы получить вычислительное время.
Как и с нефтью, спрос на токены, похоже, ненасытен — и это нагружает и без того дефицитное предложение GPU, что, в свою очередь, повышает стоимость работы AI-инструментов.
Что такое токен?
Подобно тому, как мыслят люди, LLM понимают смысл предложения, разбивая слова на токены. Пичаи описал их как «фундаментальные единицы данных, которые обрабатывают наши модели, многие из которых представляют собой решаемую задачу».
Фундаментальная единица может быть словом, частью слова или последовательностью букв, символов либо фраз. Сложные слова могут быть разбиты на несколько токенов.
Например, запрос «I am running after a car» может породить «run» как один токен и «ing» как второй токен, потому что это меняет смысл предложения. «Car» будет отдельным токеном.
«В среднем один токен — это примерно три четверти слова, так что 100 слов дают около 135 токенов», — сказал Дипак Сет, старший аналитик Gartner.
Цены на токены могут различаться
Не все токены стоят одинаково. Загружаемый в AI-систему токен дешевле, а выгружаемые токены — дороже. Пользователь, например, может заплатить за загрузку резюме, а затем заплатить еще больше за выгрузку резюме, отредактированного LLM.
«Стоимость загрузки ниже, чем стоимость выгрузки, потому что AI уже выполнил часть работы», — объяснил Макс Лиминг, руководитель направления data science и AI solutions в ManpowerGroup.
Токен-ориентированное ценообразование в основном используется для предприятий и активных пользователей, таких как разработчики. Claude Code от Anthropic и Codex от OpenAI тарифицируются в токенах, а Microsoft GitHub переходит на форму токен-ориентированного биллинга с 1 июня.
Итоговый счет за AI включает стоимость токенов и вычислительные расходы, такие как время GPU.
ManpowerGroup оплачивает стоимость токенов поставщику модели, а вычислительные затраты идут параллельно. (Компания использует Microsoft Azure, где доступны несколько LLM, а в качестве базы данных — Snowflake.)
Некоторые LLM могут быть умнее и экономнее по токенам
Некоторые AI-модели дают лучшие ответы, а значит, могут эффективнее расходовать токен-бюджет. Пичаи сказал, что новый Gemini 3.5 Flash от Google, который тарифицируется в токенах, обеспечивает «возможности на уровне frontier-моделей менее чем за половину цены сопоставимых frontier-моделей».
«Мы слышали, что многие компании уже быстро расходуют свои годовые токен-бюджеты…», — сказал Пичаи, утверждая, что если бы компании использовали Flash, «они могли бы сильно сэкономить. Если бы они перевели 80% своих рабочих нагрузок с других frontier-моделей на 3.5 Flash, они бы экономили более 1 млрд долларов в год».
Эффективность prompt имеет значение
Неэффективное использование токенов — это пустая трата денег, сказал Сет из Gartner. Один разработчик может потратить 10 000 токенов, чтобы выполнить работу, тогда как другой — лишь 1 000. Но инструмента для измерения эффективности, по словам Сета, нет.
«Некоторые компании движутся к ценообразованию, основанному на результате, потому что, когда люди начинают понимать реальную стоимость токенов, компании начинают смотреть на эффективность токенов», — сказал Сет.
С учетом этого ManpowerGroup разработала dashboard, который сокращает число шагов, необходимых клиентам для получения данных, рассказал Лиминг. Новым пользователям внутреннего инструмента по данным рынка труда сначала требовалось 10 уточняющих вопросов, чтобы углубить запрос. Спустя год тем же пользователям в среднем хватало четырех уточнений.
«Они используют меньше токенов и просто работают эффективнее», — сказал он. «И во многом это связано с вашей способностью эффективно формулировать prompt».
Но есть и обратная сторона. Такие AI-инструменты, как спорная Mythos LLM от Anthropic — которая пока еще недоступна публично, — могут стоить астрономически дорого, хотя ее более сильное reasoning может сделать ее экономичнее.
«Хотя стоимость одного токена может вырасти, в целом мы можем увидеть снижение общих затрат», — сказал Лиминг.
AI-поставщики и «стратегия дилера»
Крупнейшие поставщики AI тратят триллионы на построение AI-инфраструктуры, но берут недостаточно за токены, сказал Сет. «Мне кажется, что OpenAI, Google и Anthropic в этом мире следуют стратегии дилера: подсадить людей на AI, а затем поднять цену токена», — сказал он.
Поставщики AI могут также использовать бесплатные токены как способ удержать клиентов, сказал Лиминг. Бесплатные токены от AI-вендоров могут стимулировать компании строить процессы и рабочие потоки вокруг проприетарных LLM и agents. И будто в подтверждение этой стратегии, крупные AI-поставщики теперь отправляют инженеров для внедрения AI-моделей на площадках клиентов.
Инженеры, более известные как forward-deployed engineers, или FDEs, — это по сути наемные специалисты для внедрения AI. Их задача — помогать клиентам успешно запускать AI-проекты.
FDEs могут изучать и помогать выстраивать стратегии, разрабатывать боевые планы, строить agentic frameworks и внедрять AI совместно с внутренними предметными экспертами и инженерами заказчика. Они также оценивают AI-модели, решают проблемы контекста и reasoning, а также занимаются вопросами безопасности.
OpenAI, Google и Microsoft отходят от LLM как продукта. «Теперь они хотят зайти внутрь компании и построить вам инфраструктуру», — сказал Лиминг.
Бесплатные токены — новая льгота для сотрудников
Иногда токены теперь предлагают инженерам как бонус к работе, говорил CEO Nvidia Дженсен Хуанг. Эксперты сравнивают это с тем, как компании оплачивают сотрудникам мобильную связь.
Лиминг, который сказал, что пока не видел таких случаев, счел идею странной. Но если это и происходит, многое зависит от того, кто именно предлагает бесплатные токены.
По его словам, если работодатель предлагает бесплатные токены OpenAI или Microsoft, это может быть косвенной формой vendor lock-in. «Тогда меня стимулируют. Чем лучше я знаком с продуктом, тем больше я буду им пользоваться».
Бесплатные токены — это также способ ускорить внедрение новых AI-технологий, которые пока небезопасны для работы. Многие топ-менеджеры технологических компаний, например, изучают возможности OpenClaw — который считается прорывной AI-технологией — за свой счет, потому что эта технология считается рискованной для корпоративной среды.
Алекс Спинелли, старший вице-президент ARM по AI и developer platforms, — один из тех, кто экспериментирует с OpenClaw за свой счет.
«В моем OpenClaw, когда я настроил его неправильно, мне пришел счет на 500 долларов за один уик-энд, и я подумал: что, черт возьми, здесь произошло? Бесплатного обеда не бывает. Токены дороги», — сказал Спинелли.
Сет из Gartner сравнил тактику бесплатных токенов с индийской табачной компанией, которая когда-то выдавала сотрудникам пачки сигарет вместе с зарплатой. «Помимо зарплаты, они получали по паре коробок сигарет. Вся идея была в том, что они будут… распространять их и делать их популярнее», — сказал он.
«Если вы даете это людям, они будут это использовать, потому что теперь это вместо денег».
Материал — перевод статьи с английского.