當前位置: 主頁 > 新聞 >
 

NVIDIA 推出 Blackwell 驅動的 DGX SuperPOD, 用於兆級參數規模的生成式人工智慧超級運算

本文作者:NVIDIA       點擊: 2024-03-19 16:40
前言:
使用最先進的 NVIDIA 網路、NVIDIA 全端 AI 軟體和儲存,可擴展到數萬個 Grace Blackwell 超級晶片;具有多達 576 個 Blackwell GPU,透過 NVIDIA NVLink 連接為一體;NVIDIA 系統專家加速即時 AI 基礎架構的部署
2024年3月18日--NVIDIA 今天宣布推出下一代人工智慧(AI)超級電腦:由NVIDIA GB200 Grace Blackwell Superchips 驅動的NVIDIA DGX SuperPOD™,用於處理具有恆定運行時間的兆級參數模型,以實現超大規模生成式AI 訓練和推論工作負載。

 
新型DGX SuperPOD 採用新型高效液冷機架規模架構,採用NVIDIA DGX™ GB200 系統構建,可在FP4 精度下提供11.5 exaflops 的AI 超級運算能力和240 TB 的快速記憶體,可透過額外的機架擴展。

每個 DGX GB200 系統配備 36 個 NVIDIA GB200 超級晶片,其中包括 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,透過第五代 NVIDIA NVLink®連接為超級電腦。與NVIDIA H100 Tensor Core GP 相比,GB200超級晶片對於大型語言模型推論工作負載的效能提升高達 30倍。

NVIDIA 創辦人兼執行長黃仁勳表示:「NVIDIA DGX AI 超級電腦是 AI 工業革命的工廠。全新的 DGX SuperPOD 結合了 NVIDIA最先進的加速運算、網路和軟體,使每個公司、產業和國家都能完善和生成自己的人工智慧。」

由Grace Blackwell 提供動力的DGX SuperPOD 具有八個或更多 DGX GB200 系統,可擴展到透過 NVIDIA Quantum InfiniBand 連接的數萬個 GB200 超級晶片。客戶為了獲得龐大的共享記憶體空間來為下一代 AI 模型提供動力,可以部署透過 NVLink將 8 個 DGX GB200 系統中的 576 個 Blackwell GPU 連接起來的配置。

全新機架規模DGX SuperPOD架構應用於生成式AI時代
配備 DGX GB200 系統的新 DGX SuperPOD 具有統一的運算結構。 除了第五代 NVIDIA NVLink 之外,該結構還包括 NVIDIA BlueField®-3 DPU,並將支援今天單獨發布的 NVIDIA Quantum-X800 InfiniBand 網路。 該架構為平台中的每個 GPU 提供每秒高達 1,800 GB 的頻寬。

此外,第四代 NVIDIA 可擴展分層聚合和縮減協定(SHARP) 技術可提供DGX SuperPOD 架構 14.4 teraflops 的網路內運算能力,與上一代相比提高了 4 倍。

全方位架構搭配先進軟體實現前所未有的持續運行時間 
新的DGX SuperPOD是一款完整的、資料中心級AI超級電腦,可與NVIDIA認證的合作夥伴提供的高效能儲存整合,以滿足生成式AI工作負載的需求。每個超級電腦都在工廠內建造、布線和測試,以大幅加快在客戶資料中心的部署。

由Grace Blackwell 提供動力的DGX SuperPOD具有智慧預測管理能力,可持續監控硬體和軟體上數千個個資料點,以預測和攔截停機和低效率的根源,從而節省時間、能源和運算成本。

該軟體能夠識別問題領域並規劃維護工作,靈活調整運算資源,並自動保存並恢復工作,以防止停機,甚至無需系統管理員在場。

如果軟體偵測到需要更換組件,叢集將啟動備用容量以確保工作及時完成。任何所需的硬體更換可以預先安排,以避免非計劃性停機。

NVIDIA DGX B200 系統為產業推進 AI 超級運算
NVIDIA 也推出了用於AI模型的訓練、微調和推論的統一人工智慧超級運算平台:NVIDIA DGX B200 系統。

DGX B200 是第六代風冷、傳統機架式 DGX 設計,DGX設計已應用於全球眾多產業。 全新 Blackwell 架構 DGX B200 系統包括八個 NVIDIA B200 Tensor Core GPU和兩台第五代 Intel® Xeon® 處理器。 客戶還可以使用 DGX B200 系統建立 DGX SuperPOD,以創建卓越AI中心,為運行許多不同工作的大型開發團隊提供支援。

DGX B200 系統在新的 Blackwell 架構中包含 FP4 精度功能,可提供高達 144 petaflops 的 AI 效能、龐大的1.4TB GPU 記憶體和 64TB/s 的記憶體頻寬。與前一代相比,即時推論兆級參數模型的速度快上15倍。

DGX B200系統具有先進的網路功能,配備有八個 NVIDIA ConnectX™-7 NIC和兩個 BlueField-3 DPU 。 每個連接可提供高達每秒400 GB的頻寬,透過 NVIDIA Quantum-2 InfiniBand和 NVIDIA Spectrum™-X 乙太網路平台提供快速的 AI 效能。

用於規模化生產人工智慧的軟體和專家支持
所有 NVIDIA DGX 平台均包含用於企業級開發和部署的 NVIDIA AI Enterprise軟體。 DGX 客戶可以利用軟體平台中包含的預先訓練的 NVIDIA 基礎模型、框架、工具套件和新的 NVIDIA NIM微服務來加速他們的工作。

NVIDIA DGX 專家和經過認證可支援 DGX 平台的精選 NVIDIA 合作夥伴在部署的每個步驟中為客戶提供協助,以便他們能夠快速將 AI 上線使用。 一旦系統投入運行,DGX 專家將繼續支援客戶最佳化其 AI 管道和基礎設施。

上市時間
搭載 DGX GB200 和 DGX B200 系統的 NVIDIA DGX SuperPOD 預計今年稍後由 NVIDIA 全球合作夥伴提供。

欲了解更多資訊,請觀看 GTC 主題演講的重播,或於3 月 21 日之前至聖荷西會議中心舉行的 GTC參觀NVIDIA 展位。

關於NVIDIA(輝達)
NVIDIA(輝達)自 1993 年成立以來始終為加速運算領域的先驅。自 1999 年發明 GPU 起便成功促進 PC 電競市場的成長、重新定義電腦繪圖、引領現代人工智慧時代並推動打造工業數位化。NVIDIA 為一間全方位的運算基礎架構公司,提供資料中心規模的產品以重塑產業樣貌。欲瞭解更多資訊,請瀏覽 https://nvidianews.nvidia.com/

 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11