Когда облачные гиганты пренебрегают устойчивостью

Прослушать статью

Многочисленные сбои в облаке показывают трещины в фундаменте провайдеров. Компании вынуждены делать сложный выбор, поскольку надежность теряет приоритет.

В недавней статье, посвященной истории Microsoft Azure и его нарастающим проблемам, прослеживается сюжет, который формировался в отрасли годами. По мере того как cloud computing из модного термина превратился в основу цифровой инфраструктуры, крупным провайдерам вроде Microsoft, Amazon и Google пришлось идти на компромиссы. Их обещания почти безупречного uptime сместились от ожидания к уровню «и так сойдет», под давлением экономических факторов, заставивших облачных гигантов ставить сокращение затрат и численности персонала выше прежней, не подлежащей обсуждению надежности сервиса.

Откровенно говоря, многие, кто внимательно следит за облачным рынком, включая меня, предупреждали об этом уже давно. Сбои в облаке больше не редкие и экстраординарные события. Они встроены в модель как приемлемый побочный эффект стремительного роста и безостановочного урезания расходов, которые определяют нынешнюю эпоху cloud computing. История Azure, описанная в публикации The Register, — лишь самый свежий и заметный пример гораздо более широкого отраслевого тренда.

Это не означает, что cloud computing по своей природе нестабилен или что его преимущества — гибкость, масштабируемость, быстрое развертывание — иллюзия. Компании не отказываются от облака. Совсем наоборот: внедрение продолжается высокими темпами, даже на фоне громких инцидентов. Вопрос не в том, стоит ли cloud своих денег, а в том, сколько ненадежности допустимо ради всей этой инновационности и эффективности?

Цена оптимизации затрат

Если проследить решения крупнейших игроков публичного cloud, становится заметен общий мотив. Конкурентное давление со стороны соперников приводит к постоянному контролю расходов, ускоренному выводу сервисов на рынок, сокращению операционных бюджетов, автоматизации везде, где это возможно, и уменьшению — а иногда и полному устранению — команд глубоко опытных инженеров, которые раньше обеспечивали непрерывность работы и сохраняли институциональную память. Комментарии бывшего инженера Azure наглядно показывают, как отток специалистов в сочетании с почти одержимой ставкой на AI и автоматизацию начинает сказываться на стабильности и поддержке платформы.

Ирония здесь особенно заметна: пока облачные провайдеры демонстрируют свои достижения в AI и машинной автоматизации, человеческая экспертиза, создавшая и надежно обслуживавшая эти платформы, больше не считается критически важной. Автоматизация — не панацея; компаниям по-прежнему нужны опытные архитекторы и операторы, которые понимают пределы систем, управляют зависимостями, обрабатывают отказы и уверенно реагируют на непредсказуемые сбои. Последние крупные инциденты отражают медленную, но неуклонную утрату этого глубоко встроенного человеческого знания. Тем временем инженерные решения все чаще принимают те, кому приходится жонглировать все более крупными портфелями, новыми запусками функций и требованиями по сокращению затрат, а не те, кто последовательно фокусируется на resilience и craftsmanship.

Azure сталкивается с проблемами роста на масштабе: ежедневно создаются, тестируются и разворачиваются десятки тысяч строк кода, сгенерированных AI, — иногда другими AI-агентами, — что порождает самоподдерживающийся цикл сложности и непрозрачности. Возникающий compute crunch создает еще большую нагрузку на инфраструктуру, которая, несмотря на свою технологическую сложность, теперь обслуживает более тяжелые нагрузки при меньшем количестве людей, обеспечивающих контроль.

Сбои не отпугивают пользователей

Напрашивается естественный вопрос: если надежность явно уходит на второй план, почему компании не пересматривают саму идею облака? Я уже много лет утверждаю, что правила игры изменились. Преимущества централизации cloud, автоматизации и связности стали настолько фундаментальными для операций, что отрасль незаметно пересмотрела свою терпимость к сбоям. Public cloud настолько глубоко встроен в бизнес- и цифровые процессы, что шаг назад означал бы откат на годы, а часто и на десятилетия прогресса.

Громкие инциденты драматичны, но обычно переживаемы. Планы disaster recovery, развертывания в нескольких регионах и архитектурные обходные решения теперь обязательны для всех крупных компаний, работающих в cloud. Проектировать систему с учетом отказов — это стандартная статья затрат, а не исключение, которого можно избежать. Для большинства CIO постоянный риск простоя — управляемая переменная, уравновешенная непревзойденными преимуществами гибкости cloud и масштаба внутри компании.

Провайдеры это хорошо понимают, и их действия это подтверждают. Сбои могут немного бить по репутации в прессе, но реальные последствия пока не перевесили выгоды для компаний, которые продолжают углубляться в cloud. Логика провайдеров проста: пока клиенты, пусть и неохотно, принимают сбои, нет большого стимула переходить на более дорогие и менее масштабируемые системы.

Как компаниям адаптироваться

Теперь, когда сбои стали ценой входа, компаниям следует признать, что ни сокращение штата, ни слепая погоня за автоматизацией в ближайшее время не прекратятся. Облачные провайдеры могут обещать улучшения, но их стимулы по-прежнему будут смещены в сторону контроля затрат, а не надежности. Организациям нужно адаптироваться к этой новой норме, но они все еще могут принимать решения, снижающие риски.

Во-первых, компаниям следует делать ставку на отказоустойчивую cloud-архитектуру. Переход на multicloud и hybrid cloud стратегии, хотя и сложный, снижает технический риск, связанный с зависимостью от одного провайдера.

Во-вторых, крайне важно инвестировать во внутреннюю экспертизу, которая понимает и рабочие нагрузки, и особенности поведения cloud-сервисов. Провайдеры могут считать свой операционный персонал расходным материалом, но ничто не заменит ценность внутренней команды компании, способной самостоятельно мониторить, тестировать и готовиться к неожиданностям.

Наконец, компаниям необходимо выстраивать жесткое управление поставщиками. Это означает требовать от провайдеров выполнения обещанных service-level agreements, следить за прозрачностью коммуникаций и отчетности об инцидентах и максимально использовать контрактные возможности, особенно по мере того, как cloud-рынок взрослеет, а влияние клиентов растет.

Эпоха безотказного cloud закончилась. По мере того как публичные облачные провайдеры стремятся к операционной эффективности и доминированию в AI, устойчивость просела, и адаптироваться приходится как провайдерам, так и пользователям. Задача современных компаний — стратегически смягчить наиболее вероятные последствия до того, как ударит следующий сбой.


Материал — перевод статьи с английского.

Оригинал: When cloud giants neglect resilience