AI на масштабе: с чем сталкиваются инженерные команды

Прослушать статью

Облачные среды, созданные для развертывания приложений, теперь должны поддерживать управляемые, воспроизводимые AI-системы уровня исполнения.

Последние несколько лет обсуждение enterprise AI было пронизано оптимизмом: больше моделей, больше пилотов, быстрее автоматизация. Казалось, что достаточно выбрать правильную AI-платформу — и прогресс последует.

Реальность оказалась куда менее благосклонной.

Большинство IT-лидеров убедились, что production AI значительно сложнее, чем предполагали ранние эксперименты. Настоящая работа начинается не тогда, когда модель хорошо работает в изоляции, а тогда, когда ей приходится функционировать в средах, которые защищены, наблюдаемы и устойчивы в эксплуатации.

Недавнее исследование, проведенное моей компанией вместе с enterprise cloud-архитекторами и лицами, принимающими IT-решения, подтверждает то, что многие инженерные команды давно понимают интуитивно: экспериментировать легко. Надежно, повторяемо и на масштабе переводить AI в эксплуатацию — вот что сложно.

Как только AI начинает влиять на реальные рабочие процессы, рекомендовать решения или запускать действия, сама модель быстро становится наименее интересной частью системы. Давление смещается на все, что ее окружает.

Agentic AI масштабируется быстрее, чем среда вокруг него

Данные оставляют мало пространства для споров: AI уже перешел в операционную плоскость. Почти три четверти респондентов сообщают, что активно обучают machine learning-модели, а 76% запускают GPU-нагрузки в production. Более 70% инвестируют в AI reasoning, оптимизацию решений и AI assistants, предназначенных для выполнения задач.

Речь идет не об исследовательских сценариях. Они формируют рабочие процессы, клиентский опыт и внутренние решения.

При этом многие из этих систем разворачиваются в облачных средах, которые появились задолго до agentic AI. Почти все организации сообщают, что их machine learning pipeline требует переноса более 25% данных — ранний сигнал того, что существующая инфраструктура изначально не была рассчитана на воспроизводимые операции с моделями, стандартизированные feature pipeline или единообразное применение политик.

На практике agentic AI накладывается на платформы, оптимизированные для развертывания приложений, а не для управляемого execution-level intelligence. Именно это архитектурное несоответствие и становится источником трения.

Пробелы в governance становятся видны под давлением исполнения

Пробелы в governance легко не заметить на этапе экспериментов. В средах исполнения они проявляются немедленно.

Почти все организации хранят и обрабатывают personally identifiable information, а большинство работает в рамках регуляторных режимов вроде HIPAA или GDPR. Одновременно примерно половина использует публичные AI-инструменты, тогда как менее четверти сообщают о корпоративных, управляемых AI-развертываниях, построенных на общей framework.

Это создает структурное напряжение. AI-системы влияют на production-решения внутри сред, где governance по определению непоследовательна. Данные проходят через модели без единых audit controls. Применение политик различается между cloud accounts, командами и регионами.

Это не сбой инструментария. Это сбой проектирования системы.

Когда agentic AI напрямую участвует в execution paths, он наследует регуляторные и операционные обязательства enterprise. Если базовая cloud-архитектура не была спроектирована с учетом AI-native governance, командам приходится встраивать controls постфактум в системы, которые никогда не предназначались для такой нагрузки.

Сложность multicloud усиливает проблему

Очень немногие предприятия работают в одном облаке. Многие управляют от шести до 20 cloud accounts у разных провайдеров, а практики infrastructure-as-code различаются по платформам, при этом команды используют AWS CloudFormation и HashiCorp Terraform параллельно.

Devops-организации и без того несут значительную операционную нагрузку, особенно в части мониторинга и надежности распределенных систем. Добавление agentic AI привносит новые stateful-компоненты, зависимости от данных и требования к жизненному циклу. Переобучение моделей, обновление feature store и inference endpoints теперь должны согласовываться с identity, logging и compliance controls в разных средах.

Трение, с которым сталкиваются команды, редко возникает из-за какой-то одной AI-системы. Оно появляется на стыке agentic workloads и cloud-estates, которые годами собирались по частям в ходе модернизации. Чем более фрагментирована среда, тем сложнее обеспечить единообразное governance на уровне AI.

Дело не только в build vs. buy, но и в архитектурном соответствии

Большая часть отрасли по-прежнему рассматривает внедрение agentic AI как выбор между build и buy. Опрос показывает сильную зависимость от вендоров и сервис-провайдеров, что объясняется дефицитом навыков и сжатыми сроками. Но такая рамка упускает главное.

Решающий вопрос — архитектурное соответствие.

Сторонние платформы могут ускорить поставку. Внутренние команды привносят глубокое понимание систем и данных. Успех определяется тем, насколько AI-инициативы интегрируются в окружающую cloud-среду.

Когда сторонние возможности внедряются без согласования с внутренними стандартами, фрагментация ускоряется. А когда AI-системы разрабатываются в отрыве от основных governance frameworks, архитектурный дрейф незаметно накапливается со временем.

В ответ многие организации приходят к другой модели. Вместо того чтобы изолировать AI-проекты в силосах, они встраивают внешнюю AI-экспертизу прямо во внутренние среды поставки. Модели создаются и тестируются с учетом production-grade governance с первого дня. Инфраструктура, compliance и observability рассматриваются как обязательные требования первого порядка, а не как последующая доработка.

Этот подход признает, что немногие предприятия могут полностью укомплектовать все AI-компетенции внутри компании, и одновременно сохраняет архитектурную целостность, необходимую для устойчивого масштабирования.

AI уровня исполнения требует среды уровня исполнения

Agentic AI окончательно перешел в режим исполнения. Предприятия обучают модели, запускают GPU workloads и встраивают интеллектуальные системы непосредственно в операционные рабочие процессы. При этом многие по-прежнему модернизируют pipeline, устраняют пробелы в безопасности и добиваются единообразного governance в все более распределенных cloud estate.

Трение, с которым сталкиваются организации, редко носит алгоритмический характер. Оно архитектурное.

Облачные среды, созданные для развертывания приложений, теперь просят поддерживать управляемые, воспроизводимые AI-системы уровня исполнения. Такой переход не происходит сам по себе. Он требует намеренного проектирования среды.

Модели открывают потенциал. Архитектура определяет, переживет ли этот потенциал столкновение с production. По мере того как AI продолжает влиять на реальные решения и реальные рабочие процессы, успешное масштабирование будет определяться не новизной модели, а надежностью окружающей платформы.

—

New Tech Forum предоставляет площадку для технологических лидеров — включая вендоров и других внешних авторов — чтобы подробно обсуждать новые enterprise-технологии. Отбор материалов субъективен и основан на нашем выборе технологий, которые, по нашему мнению, важны и наиболее интересны читателям InfoWorld. InfoWorld не принимает рекламные материалы к публикации и оставляет за собой право редактировать весь предоставленный контент. Все запросы направляйте на doug_dineley@foundryco.com.

Материал — перевод статьи с английского.

Оригинал: AI at scale: What engineering teams are confronting

Подписаться на новости в Telegram