Anthropic меняет Claude и Claude Code без предупреждения: почему reliance на LLMs становится почти невозможной

Прослушать статью

За последние годы руководители enterprise IT привыкли к пугающе низкому уровню контроля и прозрачности в отношении критически важных приложений — от SaaS до облака и даже кибербезопасности. Но генеративный ИИ (genAI) и agentic systems выводят эту проблему на новый уровень: вендоры могут упростить систему, за которую IT платит миллиарды, не отправив даже открытку.

Дело не обязательно в том, что изменения в ИИ вносятся ради прибыли или выручки. Даже если принять аргумент вендора о том, что такие изменения отвечают интересам клиента, компаниям все равно нужно, чтобы их системы в четверг работали так же, как во вторник, не говоря уже о том, как они работали в момент подписания заказа на поставку.

Увы, это уже не так.

Достаточно посмотреть на недавний отчет Anthropic, где перечислен длинный список изменений, внесенных компанией в некоторые из своих ИИ-продуктов, включая одно, которое прямо ухудшало качество ответов, — без предварительного уведомления клиентов и без запроса согласия.

В отчете описаны разные изменения, которые команда Anthropic внедряла самостоятельно, а затем решала пересмотреть их только после того, как пользователи заметили падение качества и пожаловались.

«4 марта мы изменили значение reasoning effort по умолчанию в Claude Code с high на medium, чтобы снизить очень большую задержку — достаточно большую, чтобы у некоторых пользователей интерфейс выглядел зависшим, — которая наблюдалась в режиме high. Это был неверный компромисс. Мы откатили изменение 7 апреля после того, как пользователи сказали, что предпочли бы по умолчанию более высокий уровень интеллекта и включали бы lower effort только для простых задач», — говорилось в отчете Anthropic от 23 апреля. «26 марта мы внесли изменение, очищающее старые размышления Claude в сессиях, которые простаивали больше часа, чтобы уменьшить задержку при возобновлении работы. Из-за ошибки это продолжало происходить на каждом ходе до конца сессии вместо одного раза, из-за чего Claude казался забывчивым и повторялся. Мы исправили это 10 апреля».

Наша ошибка — мы откатим это назад

Самый быстрый момент в духе «Ой, наша ошибка. Мы вернем все обратно» произошел в прошлом месяце. «16 апреля мы добавили инструкцию в system prompt, чтобы сократить многословность. В сочетании с другими изменениями prompt это ухудшило качество кода, и 20 апреля изменение было отменено», — сообщил Anthropic.

Помимо того, что изменения навязываются клиентам — не обязательно для их пользы, — вендор ИИ отметил, что взаимозависимость сложных GenAI-систем затрудняет быстрое выявление проблем с производительностью, включая более слабые ответы и скорость их выдачи.

«Поскольку каждое изменение затрагивало разный сегмент трафика по разному графику, совокупный эффект выглядел как широкомасштабное, но непоследовательное ухудшение», — сказал Anthropic. Когда «в начале марта мы начали разбираться в поступавших сообщениях, их было трудно отличить от обычных колебаний в отзывах пользователей, и ни внутренние данные по использованию, ни evals поначалу не воспроизводили выявленные проблемы».

Невозможность воспроизводить ошибки и, по сути, вообще какое-либо поведение — лишь одна из реалий genAI-инструментов и agentic systems. То, что одна и та же модель с высокой вероятностью даст разный ответ на один и тот же вопрос, заданный с разницей в две минуты, и объясняет, почему воспроизводимость так сложна. Это относится ко всем вендорам ИИ, но в этом нет их вины — так же, как не их вина в галлюцинациях и игнорировании guardrails. Так работают LLMs. Хотите хорошее? Принимайте и плохое. Обвинять технологии genAI в непоследовательности — все равно что обвинять знаменитого скорпиона.

Все крупные вендоры ИИ оказались в неловком положении: определяя качество выдаваемой ими производительности, они сталкиваются с тем, что выглядит как конфликт интересов. Дело в том, что подавляющее большинство нынешних enterprise-клиентов платят за использование tokens. Это дает таким вендорам, как Anthropic, OpenAI и другим, реальный финансовый стимул вносить скрытые изменения, увеличивающие число tokens, которые клиентам нужно покупать. Anthropic попытался показать, что его команда стремилась уменьшить проблемы, при которых расход tokens искусственно возрастал.

Например, в своем отчете Anthropic сообщил, что «получил обратную связь от пользователей о том, что Claude Opus 4.6 в режиме high effort иногда думал слишком долго, из-за чего интерфейс казался зависшим и для этих пользователей возникали непропорционально высокая задержка и расход tokens. В целом, чем дольше модель думает, тем лучше результат. Уровни effort — это способ, с помощью которого Claude Code позволяет пользователям задавать этот компромисс: больше размышлений против меньшей задержки и меньшего числа срабатываний usage limits. Настраивая уровни effort для наших моделей, мы учитываем этот компромисс, чтобы выбирать точки на кривой test-time-compute, которые дают людям наилучший набор вариантов».

Технологии часто дают обратный эффект

Иногда попытка помочь клиентам оборачивается обратным эффектом, потому что, как бы это ни было неприятно, технологии нас всех не любят.

В отчете описан инцидент 26 марта, когда внутреннее изменение Anthropic «должно было повысить эффективность. Мы используем prompt caching, чтобы сделать последовательные API calls дешевле и быстрее для пользователей. Claude записывает входные tokens в cache, когда делает API request, а затем после периода бездействия prompt удаляется из cache, освобождая место для других prompts. Использование cache — это то, что мы тщательно контролируем».

Затем все пошло не так. «Задумка должна была быть простой: если сессия простаивает больше часа, мы могли бы снизить стоимость ее возобновления для пользователей, очистив старые блоки thinking. Поскольку запрос в любом случае стал бы cache miss, мы могли бы убрать из запроса ненужные сообщения, чтобы сократить число uncached tokens, отправляемых в API».

Но, как выяснилось, «в реализации была ошибка. Вместо того чтобы очищать history thinking один раз, она очищалась на каждом ходе до конца сессии. После того как сессия однажды пересекала порог бездействия, каждый запрос до конца этого процесса говорил API оставлять только самый последний блок рассуждений и отбрасывать все, что было до него. Это накапливалось: если вы отправляли follow-up message, пока Claude выполнял tool use, это запускало новый ход под действием сломанного флага, так что отбрасывались даже рассуждения текущего хода. Claude продолжал выполнять действия, но все меньше помнил, почему он решил делать именно то, что делал. Это проявлялось как забывчивость, повторение и странный выбор инструментов, о которых сообщали пользователи. …Мы считаем, что именно это привело к отдельным сообщениям о том, что usage limits расходовались быстрее, чем ожидалось».

А у Claude Opus 4.7, отметил вендор, есть «заметная особенность поведения» — он «довольно многословен. Это делает его умнее на сложных задачах, но также приводит к большему числу output tokens».

Если говорить прямо, я не утверждаю, что Anthropic действовал особенно плохо. Напротив, именно с такими проблемами сталкиваются все компании genAI, и я приветствую прозрачность Anthropic, который открыто публикует свои объяснения. (Похоже, руководители Anthropic действительно пытаются представить себя более этичными и ответственными, чем многие их конкуренты.)

Однако отчет ясно показывает: ИИ-пакет, на который ваша компания тратит большие деньги, полностью находится под контролем hyperscalers. Они могут ухудшить качество ответов и даже заставить вас платить больше, увеличив расход tokens.

При этом они заранее не спрашивают вашу команду разрешения на подобные изменения. Более того, они даже не обязаны регулярно раскрывать их постфактум. Во многом это похоже на то, как cloud provider меняет настройки без вашего ведома. Ваша команда могла потратить два дня на то, чтобы в понедельник днем все настройки были идеально выверены под операции, безопасность и compliance. Вы бы не хотели, чтобы cloud-команда изменила все это во вторник и даже не сказала вам об этом. То же самое относится и к SaaS.

Сейчас как никогда trust, honesty and integrity должны быть ключевыми отличиями вендоров. Особенно это касается ИИ-компаний. Вам нужно внутри компании отслеживать accuracy, speed и еще дюжину других ИИ-показателей, чтобы как можно быстрее замечать любые изменения. По мере того как советы директоров все настойчивее требуют от IT обеспечить чистый ROI от ИИ-инициатив, такой мониторинг перестает быть опциональным.

Покупатель, остерегайся — и это действительно так.

Материал — перевод статьи с английского.

Оригинал: Relying on LLMs is nearly impossible when AI vendors keep changing things

Подписаться на новости в Telegram