亞馬遜云科技推出基于NVIDIA Blackwell的最新、超強GPU實例持續拓展AI基礎設施邊界

亞馬遜云科技

2025-07-10 13:22 4778

亞馬遜云科技計算和機器學習服務副總裁 David Brown

北京 2025年7月10日 /美通社/ -- 設想這樣一個系統，它可以探索解決復雜問題的多種方法，依托對海量數據的理解——從科學數據集到源代碼，再到商業文檔——并能夠實時推理各種可能性。這種閃電般極速的推理不是未來的設想，而是如今亞馬遜云科技客戶AI生產環境中正在發生的事情。當前我們的客戶在藥物研發、企業搜索、軟件開發等多個領域構建的AI系統規模令人驚嘆，而這僅是開始。

為了加速推理模型、Agentic AI系統等新興生成式AI技術的發展，亞馬遜云科技宣布由NVIDIA Grace Blackwell Superchips加速的Amazon EC2 P6e-GB200 UltraServer現已正式可用。P6e-GB200 UltraServer專為訓練和部署最大規模、最復雜的AI模型而設計。今年早些時候，亞馬遜云科技已推出了基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200實例，支持多樣化的AI和高性能計算工作負載。

基于亞馬遜云科技在大規模、安全可靠GPU基礎設施的豐富經驗，Amazon EC2 P6e-GB200 UltraServer和Amazon P6-B200實例能夠幫助客戶持續推動AI技術的邊界。

滿足 AI 工作負載不斷增長的計算需求

Amazon EC2 P6e-GB200 UltraServer是亞馬遜云科技迄今為止最強大的GPU產品，配備最多72個NVIDIA Blackwell GPU，這些GPU通過第五代NVIDIA NVLink互連，并作為單一計算單元運行。每臺UltraServer可提供高達360 petaflops的高密度FP8算力，以及13.4TB的高帶寬顯存（HBM3e）——相比P5en實例，在單個NVLink域內的計算能力提升超過20倍，內存容量提升超過11倍。Amazon EC2 P6e-GB200 UltraServer支持高達28.8 Tbps的第四代Elastic Fabric Adapter（EFAv4）網絡帶寬。

Amazon EC2 P6-B200實例為廣泛AI場景提供靈活選擇。每個實例配備8個通過NVLink互連的NVIDIA Blackwell GPU，擁有1.4TB高帶寬顯存和最高3.2 Tbps的EFAv4網絡帶寬，以及第五代Intel Xeon Scalable處理器。與Amazon EC2 P5en實例相比，Amazon EC2 P6-B200實例的GPU計算能力是其2.25倍，顯存容量為其1.27倍，顯存帶寬為其1.6倍。

如何在Amazon EC2 P6e-GB200與Amazon EC2 P6-B200之間進行選擇？關鍵取決于客戶的具體工作負載需求和架構偏好：

Amazon EC2 P6e-GB200 UltraServer非常適合對計算與內存要求最為嚴苛的AI工作負載，例如訓練和部署萬億參數級的前沿模型。NVIDIA GB200 NVL72架構在這種規模下表現尤為出色。可以想象，72個GPU協同運作、共享統一內存空間并實現協調的負載分配。這種架構通過降低GPU節點之間的通信開銷，提高分布式訓練效率。對于推理任務，能夠在單一NVLink域內容納萬億參數模型，這意味著可在大規模場景下實現更快、更穩定的響應時間。當與如NVIDIA Dynamo支持的解耦式推理等優化技術結合使用時，GB200 NVL72架構具備的大規模域優勢，可為專家混合模型等多種模型架構帶來顯著的推理效率提升。特別是在處理超長上下文窗口或實時運行高并發應用時，GB200 NVL72展現出強大的性能表現。
Amazon EC2 P6-B200實例支持廣泛的AI工作負載，是面向中到大型訓練與推理任務的理想選擇。對于希望遷移現有GPU工作負載的客戶，Amazon EC2 P6-B200提供了熟悉的8-GPU配置，可最大程度減少代碼修改，簡化從當前代實例的遷移過程。此外，盡管英偉達的AI軟件棧已針對Arm和x86架構進行了優化，但對于構建于x86環境的工作負載，配備Intel Xeon處理器的Amazon EC2 P6-B200實例將更為契合。

基于亞馬遜云科技核心優勢的持續創新

將NVIDIA Blackwell引入亞馬遜云科技不僅僅是一項技術突破，更是對基礎設施的全面創新。基于在計算、網絡、運維和托管服務等領域的多年深耕與實踐，亞馬遜云科技將NVIDIA Blackwell的全部功能融入其中，同時滿足客戶期望在亞馬遜云科技獲得的高可靠性和性能。

實例強大的安全性與穩定性

客戶在選擇將GPU工作負載部署在亞馬遜云科技上的原因中，有一點反復被提及：他們高度認可亞馬遜云科技在云端對實例安全性與穩定性上的重視。Amazon Nitro系統的專用硬件、軟件和固件具備強制隔離機制，確保包括亞馬遜云科技員工在內的任何人都無法訪問客戶的敏感AI負載與數據。

除了安全性，Amazon Nitro系統還從根本上革新了基礎設施的維護與優化方式。該系統負責處理網絡、存儲及其他I/O功能，并支持在系統持續運行的情況下完成固件升級、漏洞修復和性能優化。這種無需停機即可更新的能力，被稱為"實時更新"，在當前對連續性要求極高的AI生產環境中尤為關鍵，任何中斷都可能對業務進度造成嚴重影響。

Amazon EC2 P6e-GB200和Amazon EC2 P6-B200均搭載第六代Nitro系統。但這些安全與穩定性的優勢并非首次出現，自2017年起，創新型Nitro架構就已在持續保護和優化Amazon EC2上的工作負載。

大規模環境下的可靠性能保障

對于AI基礎設施的挑戰不僅在于實現超大規模，更在于如何在這一規模下持續保障性能和可靠性。Amazon EC2 P6e-GB200 UltraServer已部署至第三代Amazon EC2 UltraCluster中，創建了單一架構，可覆蓋亞馬遜云科技規模最大的數據中心。第三代UltraCluster最多可將功耗降低40%、布線需求減少超過80%，不僅顯著提升了能效，也有效減少了潛在故障點。

為了在超大規模部署中提供一致性能，亞馬遜云科技采用了Elastic Fabric Adapter（EFA）及其可擴展可靠數據報協議（Scalable Reliable Datagram），該協議可在多條網絡路徑之間智能路由流量，即使在出現擁堵或故障的情況下，也能保持系統穩定運行。亞馬遜云科技持續對四代EFA進行性能優化。配備EFAv4的Amazon EC2 P6e-GB200和Amazon EC2 P6-B200實例，在分布式訓練中的集體通信速度相比使用EFAv3的Amazon EC2 P5en實例提升最高可達18%。

基礎設施效率

Amazon EC2 P6-B200 實例采用經過驗證的空氣冷卻架構，而Amazon EC2 P6e-GB200 UltraServer 則采用液冷方案，使大型 NVLink 域架構能夠實現更高的計算密度，從而提升系統整體性能。P6e-GB200 配備創新的機械冷卻設計，可在新建和既有數據中心中實現靈活的芯片級液冷，從而在同一設施內同時支持液冷加速器與空氣冷卻的網絡和存儲設備。憑借這一靈活的冷卻架構，亞馬遜云科技能夠以更低成本實現更高性能與效率。

在亞馬遜云科技上啟用 NVIDIA Blackwell

亞馬遜云科技通過多種部署路徑簡化Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例的啟用過程，客戶可快速開始使用Blackwell GPU，同時保持其現有的運維模式。

Amazon SageMaker HyperPod

如果客戶希望加速AI開發，并減少對基礎設施和集群運維的投入，Amazon SageMaker HyperPod正是理想之選。該服務提供托管式、可靠的基礎設施，能夠自動完成大型GPU集群的配置與管理。亞馬遜云科技也在持續增強Amazon SageMaker HyperPod，新增靈活訓練計劃等創新功能，幫助客戶獲得可預測的訓練周期，并將訓練任務控制在預算范圍內。

Amazon SageMaker HyperPod將支持Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例，并通過優化使工作負載保持在同一NVLink域內，以實現性能最大化。亞馬遜云科技還在構建一套完整的多層級恢復機制：Amazon SageMaker HyperPod可在同一NVLink域內自動用預配置的備用實例替換故障節點。內置儀表板將提供從GPU利用率、內存使用情況到工作負載指標和UltraServer運行狀態的全面可視化信息。

Amazon EKS

對于大規模AI工作負載，如果客戶更傾向于使用Kubernetes管理基礎設施，Amazon Elastic Kubernetes Service（Amazon EKS）通常是首選控制平面。Amazon EKS持續推動Amazon EKS的創新，例如Amazon EKS Hybrid Nodes功能，可支持在同一個集群中同時管理本地和Amazon EC2 GPU，從而為AI工作負載帶來更大靈活性。

Amazon EKS將通過托管節點組支持對Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例的自動配置與生命周期管理。針對Amazon EC2 P6e-GB200 UltraServer，亞馬遜云科技正在為其構建拓撲感知能力，以識別GB200 NVL72架構，并自動為節點添加UltraServer ID和網絡拓撲信息，從而實現最優的工作負載調度。客戶可選擇將節點組部署在多個UltraServer之間，或專用于單個UltraServer，從而在訓練基礎設施架構上獲得更高的靈活性。Amazon EKS還會監控GPU和加速器錯誤，并將相關信息傳遞至Kubernetes控制平面，以支持后續處理。

亞馬遜云科技上的 NVIDIA DGX Cloud

Amazon EC2 P6e-GB200 UltraServer也將通過NVIDIA DGX Cloud提供。DGX Cloud是一個統一的AI平臺，在各層架構均經過優化，具備多節點AI訓練與推理能力，并集成英偉達完整的AI軟件棧。客戶可充分利用英偉達最新的性能優化方案、基準測試方法和技術專長，以提升效率與性能。該平臺還提供靈活的服務期限選擇，以及由英偉達專家提供的全面支持與服務，助力客戶加速推進AI項目。

此次發布是一個重要的里程碑，但這僅僅是一個開始。隨著AI能力持續的快速演進，客戶需要的基礎設施不僅要滿足當下需求，更要為未來的多種可能性提供支撐。通過在計算、網絡、運維和托管服務等多個層面的持續創新，Amazon EC2 P6e-GB200 UltraServer和Amazon EC2 P6-B200實例已做好充分準備來實現這些可能。我們期待看到客戶的未來構建。

消息來源：亞馬遜云科技