HP о данных и AI для enterprise: локальные workstation, RAG и контроль затрат GenAI
Накануне AI & Big Data Expo в San Jose McEnery Convention Center, которая пройдет 18–19 мая, мы поговорили с Jerome Gabryszewski, менеджером HP по развитию бизнеса в области AI и Data Science, о AI, подготовке данных для AI ingestion и выборе между локальными и облачными вычислениями.
Технологические медиа любят повторять, что данные — это «новая нефть», но на практике, несмотря на доступ к большому объему first-party информации, использовать ее в интересах бизнеса бывает сложно, особенно в масштабах enterprise.
Что выбрать: облачную AI-модель или локальные вычисления? Как привести в порядок «data house», чтобы умные модели выдавали осмысленные результаты? И, как всегда, мы просим собеседников помочь нам заглянуть в следующую главу быстро меняющейся истории business IT в мире, где AI доминирует.
Artificial Intelligence News: Переход от ручной к автоматизированной data ingestion звучит отлично в теории, но на деле это крайне сложно. На чем, по наблюдениям HP, компании застревают чаще всего?
Один из самых постоянных источников трения, который мы видим, заключается в том, что организации недооценивают организационный и архитектурный долг, скрытый в их данных. Прежде чем автоматизация сможет заработать, им приходится согласовывать разрозненное владение данными между подразделениями, несовместимые схемы в системах и legacy-инфраструктуру, которая изначально не проектировалась для interoperabilty. Техническая сложность автоматизации часто меньше, чем объем работ по governance и интеграции, которые должны ей предшествовать.
Artificial Intelligence News: Когда AI-модели начинают непрерывно обновляться, все может быстро пойти не так. Как вы советуете клиентам работать с рисками вроде concept drift и data poisoning?
Continuous learning — это момент, когда AI из проекта превращается в liability, если им не управлять аккуратно. Мы советуем клиентам относиться к обновлениям моделей так же, как они относятся к code deployments. Ничто не попадает в production без validation gate. Для concept drift это означает MLOps pipelines с автоматическим выявлением drift и срабатыванием human-in-the-loop триггеров до начала retraining. В случае data poisoning это в равной степени вопрос data provenance и вопрос безопасности. Крайне важно точно знать, откуда берутся training data и кто может к ним прикасаться. Компании, которые справляются с этим, не обязательно самые технически продвинутые; это те, кто встроил AI governance в свои risk frameworks еще до масштабирования.
Artificial Intelligence News: Хочу затронуть аппаратные корни HP. Как сегодня должен выглядеть современный workstation или compute setup, чтобы справляться с тяжестью autonomous AI lifecycle?
Аппаратные корни HP здесь действительно важны. Серия Z уже более 15 лет создается для самого требовательного профессионального вычислительного сценария, так что, когда мы говорим о том, что на самом деле требует autonomous AI lifecycle от hardware, мы не гадаем — мы работаем над этой задачей дольше большинства.
Ответ — не одна машина, а целый спектр. На уровне отдельного разработчика нужен local compute, достаточно мощный, чтобы проводить реальные эксперименты без зависимости от cloud на каждой итерации. ZBook Ultra и Z2 Mini закрывают мобильный и компактный desktop-сегмент: это профессиональные машины, способные одновременно запускать local LLM и тяжелые рабочие нагрузки.
ZGX Nano — это место, где для AI-first команд все становится особенно интересным. Это AI supercomputer размером с ладонь (15×15 см), но он работает на NVIDIA GB10 Grace Blackwell Superchip, имеет 128 GB unified memory и 1 000 TOPS производительности AI на FP4. Один такой модуль локально обрабатывает модели до 200 billion параметров. А если команде нужно масштабироваться дальше, можно соединить два устройства через high-speed interconnect и работать с моделями до 405 billion параметров — без cloud, без data centre, без очереди. Он поставляется предварительно настроенным со стеком NVIDIA DGX software stack и HP ZGX Toolkit, поэтому команды переходят от установки к первому рабочему процессу за минуты, а не за дни.
Выше по линейке Z8 Fury дает power-user-командам до четырех NVIDIA RTX PRO 6000 Blackwell GPU в одной системе (384 GB VRAM): это полный цикл разработки модели, выполняемый on-premises. А на переднем крае ZGX Fury полностью меняет разговор. Построенный на NVIDIA GB300 Grace Blackwell Ultra Superchip с 748 GB coherent memory, он обеспечивает trillion-parameter inference на desktop, а не в data centre. Для команд, которые выполняют continuous fine-tuning и inference на чувствительных данных, он обычно окупается за 8–12 месяцев по сравнению с эквивалентными cloud compute.

А для организаций, которым нужно дальше объединять системы в кластеры и масштабироваться, вся линейка Z спроектирована в rack-ready форм-факторах, которые можно внедрять в managed IT environments без ущерба для security или data residency.
Главный вывод таков: autonomous AI lifecycle создает проблему governance и latency, а не проблему compute. Команды не могут бесконечно отправлять чувствительные training data в cloud каждый раз, когда модели нужно обновление. Портфель HP дает организациям аппаратный путь масштабирования по мере зрелости workflow — от рабочего стола разработчика до распределенных on-premises вычислений. Hardware наконец соответствует тому, что эти AI-системы действительно должны делать.
Artificial Intelligence News: Затраты на Gen AI compute для многих компаний стремительно растут. Как практически сбалансировать эти огромные расходы с современной cloud-эффективностью?
Проблема стоимости носит структурный, а не циклический характер. Расходы enterprise на GenAI выросли до 37 млрд долларов в 2025 году, и 80% компаний по-прежнему превысили свои прогнозы затрат более чем на 25%. Ключевое противоречие в том, что unit inference costs действительно снижаются, но общий объем расходов продолжает расти, потому что использование увеличивается быстрее, чем падает стоимость. Cloud API model был создан для экспериментальных low-volume workload. Он никогда не был рассчитан на роль экономического двигателя production AI в масштабе.
Практическое решение — это прежде всего дисциплина, а уже потом инфраструктура: нужно жестко разделить exploratory work и production workloads и никогда не использовать одну и ту же compute-модель для обоих. Ранние итерации — prototyping, fine-tuning, model evaluation — должны выполняться на local hardware вроде ZGX Nano или Z8 Fury, где вы один раз вкладываете капитал вместо того, чтобы сжигать operational budget на экспериментах без понятного пути к ROI.
Организации, которые делают это правильно, работают по трехуровневой модели: cloud — для burst training и доступа к frontier-моделям, который вы действительно заслужили; on-premises HP Z infrastructure — для предсказуемого высокообъемного inference; edge compute — там, где критична latency. Независимый анализ показывает, что on-premises может дать преимущество по стоимости до 18x на миллион tokens за пятилетний жизненный цикл. Формулировка, которую мы используем с клиентами, проста: cloud — для масштаба, который вы уже заработали, а не для масштаба, на который вы только надеетесь.
Artificial Intelligence News: Все хотят, чтобы их proprietary data были «AI-ready». Как компаниям добиться этого, не раскрывая чувствительную или изолированную информацию?
Ошибка, которую допускает большинство компаний, — это трактовать «AI-ready data» как задачу data engineering, хотя на самом деле это задача data sovereignty, а для них нужны разные решения. Отправка proprietary data в cloud-модель на обработку — это не только риск утечки, это еще и governance failure, который рано или поздно случится, особенно в regulated industries, где даже сам факт внешней передачи данных может привести к нарушениям compliance.
Архитектура, которая решает эту проблему, — это Retrieval-Augmented Generation (RAG), работающая на local infrastructure. Она позволяет модели извлекать релевантный контекст из внутренней knowledge base во время запроса, не обучаясь на нем и не раскрывая его вовне. Ваши proprietary data остаются on-premises, внутри hardware, который вы контролируете. Например, ZGX Nano или Z8 Fury с локально размещенной моделью могут поддерживать полный RAG pipeline по чувствительным внутренним документам без вывода данных за пределы компании и без передачи token spend третьей стороне.
Слой access control — это место, где все становится по-настоящему операционно серьезным; хорошо спроектированная RAG-система обеспечивает role-based permissions на уровне retrieval, так что AI показывает только то, что конкретный сотрудник имеет право видеть, точно так же, как это делает ваша document management system. Сочетание local compute, local model, local retrieval и управляемого доступа — вот что действительно делает proprietary data AI-ready без раскрытия.
Компании, которые делают это правильно, не отправляют свои crown jewels в cloud на обработку; они приносят intelligence к data, а не наоборот.
Artificial Intelligence News: Если совместить autonomous AI с этими современными cloud-платформами, что произойдет с повседневной ролью enterprise IT-команды в ближайшие пару лет?
Думаю, Jensen Huang лучше всего сформулировал эту концепцию. Он сказал, что наша задача — не возиться с таблицей или печатать на клавиатуре, потому что наша работа обычно куда более значима. И он четко разделил task и purpose работы. В IT, например, task может заключаться в выделении серверов или обработке инцидентов, но purpose — в том, чтобы бизнес оставался устойчивым и двигался вперед. Именно это различие сейчас и происходит на практике.
Gartner прогнозирует, что к концу 2026 года 40% enterprise applications будут иметь встроенных AI agents, тогда как год назад их было менее 5%. Это означает, что слой рутинного исполнения в IT быстро поглощается, а слой governance и architecture так же быстро расширяется. Уже сегодня в ведущих организациях IT-команды переходят от исполнения задач к проектированию и управлению agents, которые выполняют работу от их имени.
Важно, что пока только у одной из пяти компаний есть зрелая governance model для этого. Здесь снова важна local-first infrastructure. Когда automation layer работает на hardware, который вы контролируете, у вас есть полная observability поведения agents, чего у вас просто нет, когда эти workload abstractions уходят в cloud. IT-команда ближайших двух лет — это уже не команда, которая просто поддерживает работу систем. Это команды, которые решают, каким agents доверять какие решения, и следят за тем, чтобы инфраструктура под этим решением была тем, под чем бизнес действительно может подписаться.
(Источник изображения: Pixabay, лицензия.)
Хотите узнать больше об AI и big data от лидеров отрасли? Посетите AI & Big Data Expo, который пройдет в Amsterdam, California и London. Это масштабное мероприятие входит в состав TechEx и проводится совместно с другими ведущими технологическими событиями. Нажмите здесь, чтобы узнать больше.
AI News работает на базе TechForge Media. Ознакомьтесь с другими предстоящими enterprise technology events и вебинарами здесь.
Материал — перевод статьи с английского.