2026 AI Index Стэнфорда: США и Китай почти сравнялись по ИИ-моделям, а бенчмарки не успевают за прогрессом

Если вы следите за новостями об AI, у вас, вероятно, уже кружится голова. AI — это золотая лихорадка. AI — это пузырь. AI отнимает у вас работу. AI даже не умеет читать часы. Сегодня выходит 2026 AI Index от Stanford University’s Institute for Human-Centered Artificial Intelligence — ежегодный «табель успеваемости» AI, который помогает отделить шум от реального положения дел.

Несмотря на прогнозы, что развитие AI может упереться в потолок, в отчете говорится, что топовые модели продолжают становиться лучше. Люди осваивают AI быстрее, чем когда-то персональный компьютер или интернет. AI-компании зарабатывают быстрее, чем компании в любом предыдущем технологическом буме, но при этом тратят сотни миллиардов долларов на дата-центры и чипы. Benchmark’и, которые должны измерять AI, политики, которые должны его регулировать, и рынок труда изо всех сил пытаются успеть за этими темпами. AI бежит спринт, а остальным еще надо найти обувь.

У такой скорости есть цена. Дата-центры AI по всему миру теперь могут потреблять 29,6 гигаватта мощности — этого достаточно, чтобы в пиковую нагрузку обеспечить электричеством весь штат Нью-Йорк. Годовое потребление воды только на работу OpenAI GPT-4o, по оценке, может превышать потребности в питьевой воде 12 миллионов человек. Одновременно цепочка поставок чипов тревожно хрупка. Большая часть мировых AI-дата-центров находится в США, а одна компания на Тайване — TSMC — производит почти все ведущие AI-чипы.

Данные показывают технологию, которая развивается быстрее, чем мы успеваем ею управлять. Ниже — ключевые выводы из отчета этого года.

США и Китай почти сравнялись

В долгой и напряженной гонке с огромными геополитическими ставками США и Китай почти идут ноздря в ноздрю по качеству AI-моделей, следует из Arena — рейтинговой платформы, где пользователи сравнивают ответы больших языковых моделей на одинаковые запросы. В начале 2023 года впереди был OpenAI с ChatGPT, но в 2024 году разрыв сократился, когда свои модели выпустили Google и Anthropic. В феврале 2025 года модель R1, созданная китайской лабораторией DeepSeek, ненадолго сравнялась с лучшей американской моделью ChatGPT. По состоянию на март 2026 года лидирует Anthropic, а следом идут xAI, Google и OpenAI. Китайские модели вроде DeepSeek и Alibaba отстают лишь немного. Когда лучшие модели в рейтинге разделяют считаные доли, конкуренция смещается в сторону стоимости, надежности и практической полезности.

График производительности топовых моделей на Arena по выбранным провайдерам, показывающий значения Arena score с мая 2023 по январь 2026 года; все модели растут. Плотная группа лидеров из США — Anthropic, xAI, Google и OpenAI — опережает Alibaba, DeepSeek и Mistral (в этом порядке). Meta отстает от основной группы.

В отчете отмечается, что у США и Китая разные преимущества в AI. У США более мощные AI-модели, больше капитала и, по оценке, 5 427 дата-центров — это более чем в 10 раз больше, чем у любой другой страны. Китай же лидирует по числу публикаций в AI-исследованиях, патентов и робототехнике.

По мере обострения конкуренции компании вроде OpenAI, Anthropic и Google больше не раскрывают код обучения, число параметров и размеры датасетов. «Мы многого не знаем о том, как предсказывать поведение моделей», — говорит Йоланда Гил, компьютерный ученый из Университета Южной Калифорнии, соавтор отчета. По ее словам, эта непрозрачность затрудняет независимым исследователям работу над тем, как сделать AI-модели безопаснее.

AI-модели развиваются очень быстро

Несмотря на прогнозы о том, что развитие замедлится, AI-модели продолжают становиться все лучше. По некоторым метрикам они уже соответствуют или превосходят уровень человеческих экспертов в тестах, которые должны измерять знания и навыки на уровне PhD в науке, математике и понимании языка. SWE-bench Verified — benchmark по программной инженерии для AI-моделей — увидел, как лучшие результаты выросли примерно с 60% в 2024 году почти до 100% в 2025-м. В 2025 году AI-система самостоятельно подготовила прогноз погоды.

«Я поражена тем, что эта технология продолжает улучшаться и вообще никак не выходит на плато», — говорит Гил.

Однако во многих других областях AI по-прежнему сильно буксует. Поскольку модели учатся, обрабатывая огромные массивы текста и изображений, а не взаимодействуя с физическим миром, у AI наблюдается «рваный интеллект». Роботы все еще на ранней стадии и справляются лишь с 12% домашних задач. Беспилотники продвинулись дальше: машины Waymo уже ездят по пяти городам США, а автомобили Baidu Apollo Go возят пассажиров в Китае. AI также выходит в профессиональные области вроде права и финансов, но пока ни одна модель не доминирует в этих сферах.

Но то, как мы тестируем AI, сломано

Эти сообщения о прогрессе стоит воспринимать с осторожностью. Benchmark’и, созданные для отслеживания прогресса AI, не успевают за моделями, которые быстро перешагивают их потолки, говорится в отчете Stanford. Некоторые из них плохо сконструированы: у популярного benchmark’а, который проверяет математические способности модели, уровень ошибок составляет 42%. Другими можно манипулировать: если, например, модели обучают на тестовых данных benchmark’а, она может научиться показывать хорошие результаты, не становясь умнее.

Поскольку AI редко используется так же, как его тестируют, высокие показатели в benchmark’ах не всегда переносятся на реальную производительность. А для сложных интерактивных технологий вроде AI-агентов и роботов benchmark’ов пока почти нет.

AI-компании также раскрывают все меньше информации о том, как обучаются их модели, а независимое тестирование иногда дает картину, отличающуюся от той, что они публикуют. «Многие компании не раскрывают, как их модели показывают себя в некоторых benchmark’ах, особенно в benchmark’ах по responsible-AI», — говорит Гил. «Отсутствие данных о том, как ваша модель работает в benchmark’е, возможно, что-то говорит».

AI начинает влиять на работу

За три года после массового распространения AI его уже используют более половины людей в мире — темпы внедрения выше, чем у персонального компьютера или интернета. По оценке, AI сейчас применяют 88% организаций, а четыре из пяти студентов университетов используют его.

Это все еще ранняя стадия внедрения, и влияние AI на занятость трудно измерить. Тем не менее некоторые исследования показывают, что AI уже начинает влиять на молодых работников в отдельных профессиях. Согласно исследованию экономистов Stanford за 2025 год, занятость software developers в возрасте от 22 до 25 лет с 2022 года снизилась почти на 20%. Нельзя утверждать, что причиной стал только AI: свою роль могли сыграть и более широкие макроэкономические условия, но AI, похоже, тоже влияет.

Два линейных графика, показывающих нормализованную динамику численности сотрудников по возрастным группам с 2021 по 2025 год. Слева для software developers группа ранней карьеры (22-25 лет) резко падает после пика в сентябре 2022 года, тогда как другие возрастные группы продолжают расти, хотя и менее резко. Справа у customer support agents похожая динамика, но спад у ранней карьеры менее выражен, чем у software developers.

Работодатели говорят, что найм может и дальше ужесточаться. Согласно опросу McKinsey & Company 2025 года, треть организаций ожидают, что AI сократит их штат в ближайший год, особенно в сервисных и supply chain-операциях и в software engineering. AI повышает производительность на 14% в customer service и на 26% в software development, говорится в исследованиях, на которые ссылается индекс, но таких результатов не наблюдается в задачах, где требуется больше суждения. В целом пока слишком рано понимать более широкий экономический эффект AI.

Люди по-разному относятся к AI

Во всем мире люди одновременно оптимистичны и тревожны по поводу AI: 59% считают, что он принесет больше пользы, чем вреда, а 52% говорят, что AI вызывает у них нервозность, следует из опроса Ipsos, на который ссылается индекс.

Примечательно, что эксперты и общественность очень по-разному видят будущее AI, говорится в исследовании Pew. Самый большой разрыв — в вопросе работы: 73% экспертов считают, что AI окажет положительное влияние на то, как люди выполняют свою работу, тогда как среди американской общественности так считают только 23%. Эксперты также более оптимистичны, чем широкая публика, в отношении влияния AI на образование и медицину, но обе группы согласны, что AI навредит выборам и личным отношениям.

Столбчатая диаграмма восприятия социального влияния AI в США, сравнивающая американских взрослых и экспертов по AI. Доля экспертов, считающих, что AI окажет положительное влияние в ближайшие 20 лет, в 2-3 раза выше, чем доля взрослых в США. Самые оптимистичные эксперты в сфере медицины: 84% прогнозируют положительный исход против 44% взрослых в США. Самый большой разрыв — по рабочим местам: 73% у экспертов против 23% у взрослых. По выборам ожидания схожие: 11% у экспертов и 9% у взрослых считают, что AI даст положительный результат.

Среди всех стран, участвовавших в опросе, американцы меньше всех доверяют своему правительству в том, что оно сможет правильно регулировать AI, следует из другого опроса Ipsos. Больше американцев опасаются, что федеральное регулирование AI окажется недостаточно жестким, чем того, что оно будет чрезмерным.

Правительствам трудно регулировать AI

Правительства по всему миру пытаются регулировать AI, но за прошлый год были и небольшие успехи. Вступили в силу первые запреты EU AI Act, которые запрещают использовать AI в predictive policing и emotion recognition. Собственные национальные законы об AI также приняли Япония, Южная Корея и Италия. Тем временем федеральное правительство США двигалось в сторону дерегулирования: президент Трамп подписал указ, стремящийся лишить штаты возможности регулировать AI.

Несмотря на действия федерального уровня, законодательные собрания штатов США приняли рекордные 150 законопроектов, связанных с AI. Калифорния приняла знаковое законодательство, включая SB 53, который требует раскрытия информации о безопасности и защиты для whistleblowers, работающих у разработчиков AI-моделей. Нью-Йорк принял RAISE Act, обязывающий AI-компании публиковать протоколы безопасности и сообщать о критических инцидентах, связанных с безопасностью.

Линейный график, показывающий число законопроектов, связанных с AI, принятых во всех штатах США в законы в 2016-2025 годах. Рост резко ускоряется в 2023 году и достигает пика в 150 законах в 2025 году.

Но при всей этой законодательной активности, говорит Гил, регулирование отстает от технологии, потому что мы на самом деле не понимаем, как она работает. «Правительства осторожничают с регулированием AI, потому что… мы очень многого не понимаем», — говорит она. «У нас нет хорошего понимания этих систем».

Deep Dive

Artificial intelligence

OpenAI вкладывает все силы в создание полностью автоматизированного исследователя

Эксклюзивный разговор с главным научным сотрудником OpenAI Якубом Пахоцки о новой большой цели компании и будущем AI.

Will Douglas Heaven archive page

Как Pokémon Go помогает доставочным роботам точнее видеть мир

Эксклюзив: AI-спин-офф Niantic обучает новую мировую модель на основе 30 миллиардов изображений городских ориентиров, собранных игроками.

Will Douglas Heaven archive page

Этот стартап хочет изменить то, как математики занимаются математикой

Axiom Math раздает мощный новый AI-инструмент. Но еще предстоит понять, ускорит ли он исследования так, как надеется компания.

Will Douglas Heaven archive page

AI benchmark’и сломаны. Вот что нужно вместо них.

Разовые тесты не измеряют реальное влияние AI. Лучше перейти к более человеко-ориентированным методам, зависящим от контекста.

Angela Aristidou archive page


Материал — перевод статьи с английского.

Оригинал: Want to understand the current state of AI? Check out these charts.