Компания собирает многоархитектурный стек, охватывающий AWS, Nvidia, AMD, Arm и собственный silicon. В эпоху agentic AI не побеждает один чип — Meta делает ставку сразу на все.
Meta продолжает наращивать свои compute-ресурсы на фоне того, как гонка в agentic AI переходит от ускорения к спринту.
Сегодня компания объявила о партнерстве с Amazon Web Services (AWS), которое добавит в ее compute-портфель «десятки миллионов» ядер AWS Graviton5 (в одном чипе 192 ядра) с возможностью расширения по мере роста AI-возможностей. Это сделает разработчика Llama одним из крупнейших клиентов Graviton в мире.
Сделка дополняет широкую сеть партнерств Meta почти со всеми поставщиками чипов и compute-ресурсов в отрасли. Компания работает с Nvidia, Arm и AMD, а также разрабатывает собственный внутренний чип-ускоритель для обучения и инференса.
«Очень трудно уследить за тем, что делает Meta, с этими сделками по чипам и объявлениями о внутренней разработке», — сказал Matt Kimball, вице-президент и ведущий аналитик Moor Insights & Strategy. По его словам, это «интересное время, которое показывает, насколько невероятно ценным сейчас является silicon».
Контроль над системой, а не только масштаб
Графические процессоры (GPUs) необходимы для обучения large language model (LLM), но agentic AI требует совершенно новых возможностей для рабочих нагрузок. CPU вроде Graviton5 берут на себя эту задачу, поддерживая ресурсоемкие сценарии вроде real-time reasoning, многошаговых задач, обучения frontier model, генерации кода и deep research.
AWS утверждает, что Graviton5 способен обрабатывать «миллиарды взаимодействий» и координировать сложные многоэтапные agentic-задачи. Он построен на базе AWS Nitro System, чтобы обеспечивать высокую производительность, доступность и безопасность.
«Речь идет скорее о контроле над AI-системой, а не просто о масштабе», — сказал Kimball. По мере того как AI движется к постоянным agentic-нагрузкам, роль CPU становится «довольно значимой»: он выступает как control plane, управляя оркестрацией, памятью, планированием и другими ресурсоемкими задачами на уровне ускорителей.
«Особенно это верно в agentic-средах, где рабочие нагрузки будут менее линейными и более stateful», — отметил он. Поэтому обеспечение поставок таких ресурсов выглядит вполне логичным.
Отражение диверсифицированного подхода Meta к железу
Соглашение опирается на давнее партнерство Meta с AWS, но также отражает то, что компания называет своим «diversified approach» к инфраструктуре. «Ни одна архитектура чипов не может эффективно обслуживать каждую рабочую нагрузку», — подчеркнула компания.
В подтверждение этого Meta недавно объявила о четырех новых поколениях своего training and inference accelerator chip MTIA и заключила масштабную сделку с AMD на 6GW CPU и AI-ускорителей. Кроме того, компания заключила многолетнее партнерство с Nvidia, чтобы получить доступ к миллионам GPUs Blackwell и Rubin и интегрировать коммутаторы Nvidia Spectrum-X Ethernet в свою платформу, а также стала одним из первых крупных клиентов Arm в сегменте CPU.
На фоне всего этого Nabeel Sherif, principal advisory director в Info-Tech Research Group, задал главный вопрос: «Что они собираются делать со всей этой мощностью?»
По его словам, прежде всего она будет поддерживать внутренние эксперименты и инновации Meta, но одновременно закладывает основу и дает компании возможность выводить на рынок собственные agentic AI-сервисы, например Llama AI model as an API.
«Как будут выглядеть эти [сервисы] и какие платформы и инструменты они будут использовать, а также какие guardrails они предложат пользователям, пока неясно, но за этим будет интересно наблюдать», — сказал Sherif.
Расширение мощностей позволит проводить больше экспериментов и запускать разные сценарии использования на разных архитектурах и платформах, отметил он. У Meta будет много вариантов и доступ к поставкам в среде, которую сейчас характеризуют не только разнообразные новые подходы к CPU, но и серьезные ограничения цепочек поставок. Сделку с AWS следует рассматривать как дополнение к партнерствам и инвестициям в другие платформы, такие как ARM, Nvidia и AMD.
Kimball согласился, что этот шаг «безусловно добавочный», а не замещающий. Meta не отказывается от GPUs или ускорителей — она выстраивает систему вокруг них. «Речь идет о сборке гетерогенной системы, а не о выборе одного победителя», — сказал он. «На самом деле, я считаю, что для большинства гетерогенность критична для долгосрочного успеха».
Nvidia по-прежнему доминирует в обучении и во многом в инференсе, тогда как AMD становится «все более значимой в масштабе», отметил Kimball. Arm, в свою очередь, будь то через CPU, custom silicon или другие инициативы, дает Meta архитектурный контроль, а Graviton5 вписывается в эту смесь как «general-purpose compute layer, оптимизированный по стоимости и эффективности».
Вопрос стратегии
Более интересный вопрос связан со стратегией: означает ли это, что Meta становится поставщиком compute? Kimball так не считает и отмечает, что компания, вероятно, не стремится напрямую конкурировать с hyperscalers как универсальное cloud-решение. «Это скорее про вертикальную интеграцию собственного AI-стека», — сказал он.
Этот шаг дает компании возможность эффективнее поддерживать внутренние рабочие нагрузки, а также создает инфраструктурную основу для более широкого внешнего раскрытия этих возможностей — через API, партнерства или другие каналы, отметил он.
Есть здесь и ценовой аспект, добавил Kimball. По мере того как инференс становится постоянным, особенно в agentic-системах, экономика смещается от пиковых FLOPS (показатель compute-производительности) к устойчивой эффективности и TCO.
CPU вроде Graviton5 хорошо подходят для тех частей нагрузки, которым не требуются ускорители, но которые должны работать непрерывно. «В масштабе Meta даже небольшие выигрыши в эффективности на одну рабочую нагрузку быстро складываются в значимый эффект», — отметил Kimball.
Для разработчиков и enterprise IT сигнал достаточно ясен, сказал он: AI-стек становится более гетерогенным, а не менее. Компании будут видеть более тесную связку между CPU, GPUs и специализированными ускорителями, при этом рабочие нагрузки все чаще будут распределяться между ними в зависимости от поведения (prefill versus decode, stateless versus stateful, burst versus persistent).
«Следствие в том, что инфраструктурные решения должны становиться более workload-aware», — сказал Kimball. «Речь уже не столько о том, “какой cloud?”, сколько о том, “где именно эта часть приложения работает наиболее эффективно?”»
Первоначально эта статья была опубликована на NetworkWorld.
Материал — перевод статьи с английского.
Оригинал: Meta’s compute grab continues with agreement to deploy tens of millions of AWS Graviton cores
