Meta заключила соглашение с AWS о развертывании десятков миллионов ядер Graviton5

Прослушать статью

Компания собирает многoархитектурный стек из AWS, Nvidia, AMD, Arm и собственного кремния. В эпоху agentic AI не побеждает один чип — Meta ставит сразу на все варианты.

Meta продолжает наращивать вычислительные мощности, поскольку гонка agentic AI ускоряется и превращается в спринт.

Сегодня компания объявила о партнерстве с Amazon Web Services (AWS), в рамках которого в вычислительный портфель Meta войдут «десятки миллионов» ядер AWS Graviton5 (в одном чипе — 192 ядра), с возможностью расширения по мере роста ее ИИ-возможностей. Это сделает разработчика Llama одним из крупнейших клиентов Graviton в мире.

Этот шаг продолжает широкую стратегию Meta по работе почти со всеми поставщиками чипов и вычислительных ресурсов в отрасли. Компания сотрудничает с Nvidia, Arm и AMD, а также разрабатывает собственный внутренний ускоритель для обучения и инференса.

«Очень трудно уследить за тем, что делает Meta, с учетом всех этих сделок по чипам и объявлений о собственной разработке», — сказал Matt Kimball, вице-президент и главный аналитик Moor Insights & Strategy. По его словам, это создает «интересное время, которое показывает, насколько невероятно ценен кремний прямо сейчас».

Контроль над системой, а не только над масштабом

Графические процессоры (GPU) необходимы для обучения больших языковых моделей (LLM), но agentic AI требует совершенно иного набора возможностей для рабочих нагрузок. Такие CPU, как Graviton5, уже берут на себя эту роль, поддерживая ресурсоемкие задачи вроде рассуждений в реальном времени, многошаговых сценариев, обучения frontier-моделей, генерации кода и глубоких исследований.

По данным AWS, Graviton5 способен обрабатывать «миллиарды взаимодействий» и координировать сложные многоэтапные agentic-задачи. Он построен на AWS Nitro System, чтобы обеспечивать высокую производительность, доступность и безопасность.

«Речь здесь действительно идет о контроле над ИИ-системой, а не только о масштабе», — отметил Kimball. По мере того как ИИ движется к постоянным agentic-нагрузкам, роль CPU становится «весьма значимой»: он выступает в роли control plane, управляя оркестрацией, памятью, планированием и другими ресурсоемкими задачами на фоне ускорителей.

«Это особенно верно в agentic-среде, где рабочие нагрузки будут менее линейными и более stateful», — добавил он. Поэтому обеспечение поставок таких ресурсов выглядит вполне логичным.

Отражение диверсифицированного подхода Meta к аппаратному обеспечению

Соглашение опирается на давнее партнерство Meta с AWS, но также отражает то, что компания называет своим «диверсифицированным подходом» к инфраструктуре. «Ни одна архитектура чипа не может эффективно обслуживать все рабочие нагрузки», — подчеркнула компания в сообщении.

В подтверждение этого Meta недавно анонсировала четыре новых поколения своего ускорителя MTIA для обучения и инференса и заключила крупную сделку с AMD на использование CPU и ИИ-ускорителей мощностью 6GW. Компания также заключила многолетнее партнерство с Nvidia, чтобы получить доступ к миллионам GPU Blackwell и Rubin и интегрировать Ethernet-коммутаторы Nvidia Spectrum-X в свою платформу, а также была одним из первых крупных клиентов Arm в сегменте CPU.

На фоне этого Nabeel Sherif, principal advisory director в Info-Tech Research Group, задал главный вопрос: «Что они собираются делать со всей этой мощностью?»

В первую очередь она будет поддерживать внутренние эксперименты и инновации Meta, сказал он, но также закладывает основу и дает мощность для вывода на рынок собственных agentic AI-сервисов Meta, например, модели Llama AI в виде API.

«Как именно будут выглядеть эти [сервисы], какие платформы и инструменты они будут использовать, а также какие ограничения для пользователей предложат, пока неясно, но за развитием этого направления будет интересно наблюдать», — сказал Sherif.

Расширение мощностей позволит Meta экспериментировать с разными вариантами использования на разных архитектурах и платформах, добавил он. У компании будет много вариантов и доступ к поставкам в среде, где сейчас наблюдаются не только разнообразные новые подходы к CPU, но и серьезные ограничения в цепочках поставок. Сделку с AWS следует рассматривать как дополнение к ее партнерствам и инвестициям в другие платформы, такие как ARM, Nvidia и AMD.

Kimball согласился, что этот шаг «безусловно дополняющий», а не заменяющий. Meta не уходит от GPU или ускорителей — она строит систему вокруг них. «Речь идет о создании гетерогенной системы, а не о выборе одного победителя», — сказал он. «Более того, я считаю, что для большинства гетерогенность критически важна для долгосрочного успеха».

По словам Kimball, Nvidia по-прежнему доминирует в обучении и значительной части инференса, тогда как AMD становится «все более и более значимой в масштабе». Arm, в свою очередь, будь то через CPU, кастомный кремний или другие инициативы, дает Meta архитектурный контроль, а Graviton5 вписывается в эту комбинацию как «универсальный вычислительный слой, оптимизированный по стоимости и эффективности».

Вопрос стратегии

Более интересный вопрос связан со стратегией: означает ли это, что Meta становится поставщиком вычислительных мощностей? Kimball так не считает, отмечая, что компания, скорее всего, не собирается напрямую конкурировать с гиперскейлерами как универсальное облако. «Речь скорее о вертикальной интеграции собственного ИИ-стека», — сказал он.

Этот шаг дает компании возможность эффективнее поддерживать внутренние рабочие нагрузки, а также создает инфраструктурную основу для вывода части этих возможностей наружу — через API, партнерства или иные каналы, добавил он.

Есть здесь и ценовой аспект, отметил Kimball. По мере того как инференс становится постоянным, особенно в agentic-системах, экономика смещается от пикового показателя FLOPS (мера вычислительной производительности) к устойчивой эффективности и совокупной стоимости владения (TCO).

CPU вроде Graviton5 хорошо подходят для тех частей этой нагрузки, где не нужны ускорители, но которые должны работать постоянно. «При масштабе Meta даже небольшие выигрыши в эффективности на каждую нагрузку быстро накапливаются», — подчеркнул Kimball.

Для разработчиков и корпоративных ИТ-систем сигнал, по его словам, вполне ясен: ИИ-стек становится более гетерогенным, а не менее. Компании будут видеть более тесную связку между CPU, GPU и специализированными ускорителями, при этом рабочие нагрузки все чаще будут распределяться между ними по характеру поведения — prefill против decode, stateless против stateful, burst против persistent.

«Следствие в том, что инфраструктурные решения должны становиться более чувствительными к рабочей нагрузке», — сказал Kimball. «Речь уже не столько о том, “какое облако?”, сколько о том, “где именно эта часть приложения работает наиболее эффективно?”»

Эта статья впервые была опубликована на NetworkWorld.


Материал — перевод статьи с английского.

Оригинал: Meta’s compute grab continues with agreement to deploy tens of millions of AWS Graviton cores