Разработчики AMD и enterprise-клиенты сомневаются в надежности Claude Code для сложной отладки

by Анирбан Гошал

Старший писатель

Корпоративные разработчики ставят под сомнение надежность Claude Code для сложной инженерной работы
новости
7 апр. 2026 7 мин

Отзывы на GitHub и сообщения пользователей указывают на снижение эффективности в отладке и задачах на уровне системы с несколькими файлами.

Anthropic Claud

Источник: Koshiro K / Shutterstock

Когда кодовый ассистент начинает выглядеть так, будто он ищет короткие пути, разработчики это замечают. Старший директор в AI Group AMD публично поддела Anthropic’s Claude Code за, как она это называет, склонность пробегать мимо сложных мест, выдавая ответы, которые вроде бы попадают в цель, но не совсем убеждают.

Претензия не столько в полном отказе, сколько в ослаблении строгости: сложные проблемы вызывают ответы, которые кажутся более быстрыми, легкими и слишком охотно переходят к следующему шагу, заставляя старшего руководителя и ее команду перестать использовать инструмент парного программирования для сложных инженерных задач, таких как отладка аппаратных проблем и проблем на уровне ядра.

Эти опасения были подробно изложены в тикете GitHub issues, который Stella Laurenzo подала, где она утверждает, что февральское обновление инструмента могло привести к регрессии качества в его способностях к рассуждению при выполнении сложных задач.

Этот тикет основан на ее количественном анализе 17 871 блока мышления и 234 760 вызовов инструментов в 6 852 файлах сессий, охватывающих период с января по март, включая периоды до и после обновления для сравнения.

В своем анализе Laurenzo указала, что модель постепенно перестала читать код перед внесением изменений из-за потери способностей к рассуждению.

«Когда мышление поверхностное, модель по умолчанию выбирает самый дешевый доступный шаг: редактировать, не читая, останавливаться, не завершая, уходить от ответственности за сбои, выбирать самое простое исправление вместо правильного», — написала она в тикете.

По словам Laurenzo, ухудшение рассуждений — серьезное препятствие для ее команды, поскольку оно затрагивает более 50 одновременных агентских сессий, занимающихся системным программированием на C, драйверами GPU и более чем 30-минутными автономными запусками со сложными многофайловыми изменениями.

Laurenzo не единственная, кто поднимает эти вопросы. Несколько пользователей прокомментировали тикет, написав, что у них были похожие впечатления, как у Laurenzo и ее команды.

Другой пользователь сослался на несколько сабреддитов, указывающих на похожие проблемы деградации; этот комментарий сам получил заметную поддержку от других разработчиков в виде апвотов на GitHub.

Нехватка ресурсов встречается с терпением разработчиков

Этот растущий хор жалоб не остался незамеченным аналитиками, которые связали проблему с зарождающимися ограничениями по мощности у Anthropic.

«Это в первую очередь вопрос мощности и затрат. Сложные инженерные задачи требуют значительно большего объема вычислений, включая промежуточные шаги рассуждения. По мере роста использования система не может поддерживать такой уровень вычислений для каждого запроса», — сказала Chandrika Dutt, директор по исследованиям в Avasant.

«В результате система ограничивает, как долго выполняется задача или какой глубины рассуждения применяются, а также сколько таких задач может выполняться одновременно», — добавила Dutt.

Это не первый случай, когда Anthropic пришлось иметь дело с ограничениями мощности в контексте Claude Code.

В прошлом месяце компания начала ограничивать использование своих подписок Claude, чтобы справиться с растущим спросом, который перегружает ее вычислительные мощности. Тогда логика заключалась в том, что, ускоряя достижение пользователями лимитов своих сессий в этих окнах, Anthropic сможет эффективно перераспределять доступ, чтобы предотвратить перегрузку системы, при этом сохраняя общие недельные квоты использования.

Разработчики, как и в случае с регрессией рассуждений, резко выступили против ограничений частоты, введенных для Claude Code, утверждая, что эти ограничения подрывают его полезность.

Не массовый исход, а медленное размывание доверия

В совокупности двойное разочарование из-за ограничений частоты и предполагаемых регрессий в рассуждениях рискует подорвать доверие разработчиков к платформе, а не вызвать массовый исход, замедляя импульс и подталкивая корпоративных пользователей страховаться альтернативами, говорят аналитики.

«Это не тот момент, когда пользователи уходят за одну ночь. Это гораздо тоньше и гораздо опаснее. Происходит тихий сдвиг в том, насколько разработчики доверяют системе, когда ставки высоки. Самые громкие жалобы исходят от команд, которые уже начали полагаться на систему для серьезной многошаговой инженерной работы в ходе длительных сессий», — сказал Sanchit Vir Gogia, главный аналитик Greyhound Research.

«Изменилось не только качество результатов, но и то, как система ведет себя, когда их создает. Наблюдается заметный сдвиг от осторожного пошагового рассуждения к более быстрому, более реактивному выполнению. Это создает цикл, в котором инженеры вмешиваются чаще, прерывают работу чаще и в итоге делают то мышление, которое система должна была выполнять сама», — отметил Gogia.

По словам аналитика, это изменение заставит команды переносить сложную или критически важную работу в другое место, оставляя за Claude более простые задачи, что со временем превратит платформу из основного инструмента в дополнительный.

Laurenzo, согласно ее тикету GitHub issues, тоже идет по тому же пути, который предсказывает Gogia: временно отказывается от Claude Code, пока Anthropic не исправит проблему, и пока что переходит на неназванное предложение конкурента.

В мире с дефицитом GPU нет простого выхода

Однако Dutt из Avasant не слишком оптимистична относительно решения Laurenzo в долгосрочной перспективе. Она указала, что конкуренты могут вскоре столкнуться с теми же ограничениями по мощности, что и Anthropic: «Все передовые модели работают в условиях схожих ограничений по GPU и затратам. По мере масштабирования использования всем поставщикам придется вводить механизмы ограничения, многоуровневые модели доступа и компромиссы между скоростью, стоимостью и глубиной рассуждения. Это структурно неизбежно».

Тем более в случае регрессии рассуждений, потому что аналитик считает поддержание глубоких рассуждений в масштабе сложной задачей, опирая свою теорию на недавние бенчмарки SWE-EVO 2025 для AI coding agents, которые показывают, что показатели успеха резко падают при многошаговых задачах, а доля неудач часто находится в диапазоне 60%–80%, особенно в сценариях с высокой нагрузкой на выполнение.

Платить больше, видеть больше: новый компромисс ИИ?

В качестве запасного варианта Laurenzo, однако, надеется, что Anthropic сможет скорректировать курс, даже предлагая в своем тикете ввести премиальные уровни, позволяющие пользователям платить за большую вычислительную мощность для рассуждений.

Это может скоро стать реальностью, сказали и Dutt, и Gogia, поскольку отрасль движется к модели потребления, в которой базовое использование рассматривается иначе, чем тяжелые нагрузки, требующие интенсивных рассуждений.

Аналитики также поддерживают другие предложения Laurenzo для Anthropic, включая прозрачность в вопросе распределения токенов на мышление.

«Пользователям нужно понимать, что система делает под капотом. Не все детали, но достаточно, чтобы знать, действительно ли система прошла через проблему рассуждением или просто выдала быстрый ответ. Сегодня пользователи вынуждены делать выводы по результатам, именно поэтому вы видите, как они анализируют логи и поведенческие паттерны. Это не должно быть необходимо», — сказал Gogia.

Пока же Anthropic еще не ответила на тикет Laurenzo в GitHub и никому его не назначила.

Однако, если они надеются на быстрое исправление, особенно в части мощности, им, возможно, стоит снизить ожидания, по крайней мере до 2027 года, потому что именно тогда новые чипы в виде TPU Google, произведенных Broadcom, будут добавлены в ее парк. Пока не появится больше GPU или компания не решит, кому можно будет использовать их по более высокой цене, разработчикам, возможно, останется обновлять ветки, наблюдать, как токены распределяют по нормам, и ждать возвращения рассуждений.

Инструменты разработкиРазработка ПОГенеративный ИИИскусственный интеллект


Anirban Ghoshal

by
Анирбан Гошал

Старший писатель

  1. Подписаться на Anirban Ghoshal в X

  2. Подписаться на Anirban Ghoshal в LinkedIn

Anirban — удостоенный наград журналист, увлеченный корпоративным ПО, облачными вычислениями, базами данных, аналитикой данных, инфраструктурой ИИ и генеративным ИИ. Он пишет для CIO, InfoWorld, Computerworld и Network World. В 2024 году он получил Silver Azbee Award за лучшую новостную статью в категории «Технологии». У него есть последипломный диплом по журналистике от Indian Institute of Journalism and New Media.

Еще от этого автора

Покажите мне еще

мнение

Проблема масштабирования Terraform: когда инфраструктура как код становится инфраструктурой как сложностью

Нил Шах7 апр. 202614 мин
Управление облакомИнструменты разработкиDevops
Image

новости

Корпоративные разработчики ставят под сомнение надежность Claude Code для сложной инженерной работы

Анирбан Гошал7 апр. 20267 мин
Искусственный интеллектИнструменты разработкиГенеративный ИИ
Image

анализ

Чему корпоративным DevOps-командам стоит поучиться у SaaS

Айзек Саколик7 апр. 20269 мин
КарьераDevopsSaaS
Image

видео

Новый тип frozendict в Python

2 апр. 20264 мин
Python
Image

видео

Как повысить производительность приложения с помощью ленивого импорта Python 3.15

31 мар. 20266 мин
Python
Image

видео

Как запустить свой маленький локальный Claude Code (вроде того!)

26 мар. 20267 мин
Python
Image


Материал — перевод статьи с английского.

Оригинал: Enterprise developers question Claude Code’s reliability for complex engineering