NVIDIA 今日發表登上全球運算速度最快排行榜第22名的超級電腦 DGX SuperPOD,它提供的人工智慧基礎架構可滿足企業部署自動駕駛車計畫的龐大需求,清楚展現出人工智慧領導需要最佳運算能力的原因。
NVIDIA 只花了三週時間,用 96 台 NVIDIA DGX-2H 超級電腦及 Mellanox 互連技術,打造出這套擁有 9.4 petaflops 處理能力的系統,能夠用來訓練安全自動駕駛車所需的大批深度神經網路。
客戶可向任何 DGX-2 合作夥伴,購買 DGX SuperPOD 設計架構的全部或部分系統內容。
訓練自動駕駛車的人工智慧系統需要龐大的運算能力,這是一項終極挑戰。
一輛用於收集資料的自動駕駛車,每小時產生出 1TB 的資料,乘以多年來整個自動駕駛車隊所累計的時數,很快就會知道我們已經累積出數 PB 的資料量。那些資料用於訓練演算法來掌握道路規則,且用於發現車輛運行之深度神經網路可能出錯的情況,接著不斷重複循環進行訓練。
NVIDIA 人工智慧基礎架構部門副總裁 Clement Farabet 表示:「人工智慧領導要求在運算基礎架構方面處於領先地位。很少有人工智慧方面的挑戰跟訓練自動駕駛車一樣困難,這需要對神經網路不斷進行成千上萬次的訓練,以達到極高的精確度要求。沒有哪一項裝置可以媲美 DGX SuperPOD,擁有如此強大的處理能力。」
DGX SuperPOD 搭載由 NVIDIA NVSwitch 技術及 Mellanox 網路結構相互串連的1,536個 NVIDIA V100 Tensor Core GPU,能以較同級超級電腦更為出類拔萃的效能來處理資料。
該系統 24 小時不停歇地運作,優化自動駕駛軟體,用較過去更快的轉迴時間重新訓練神經網路。
舉例來說,DGX SuperPOD 的硬體和軟體平台只要不到兩分鐘的時間,便可完成 ResNet-50 的訓練。2015年推出這個人工智慧模型時,在當時最先進的單台 NVIDIA K80 GPU 系統上用了 25 天才完成訓練。DGX SuperPOD 將訓練速度提高了 1.8 萬倍。
其它有著類似效能水準的 TOP500 系統用了數千具伺服器來建構,DGX SuperPOD 卻只用了一小部分的空間,比起排名差不多的超級電腦,體積小了約400倍。
有著龐大運算需求的單位早就採用 NVIDIA DGX 系統,從 BMW、Continental、Ford 及 Zenuity 等汽車公司,再到 Facebook、Microsoft 和 Fujifilm 在內的企業,以及像理化學研究所與美國能源部國家實驗室這般的研究領導機構。
用於建造你自己的 SuperPOD 的參考架構
DGX SuperPOD 不僅能以超高速度運行深度學習模型。模組化的企業級設計也讓它能快速進行部署。
這般規模的系統通常要六到九個月的時間來進行部署,NVIDIA 的工程師按照經過驗證的規範方法,僅用了三週時間便完成部署 DGX SuperPOD。
建構 DGX SuperPOD 這樣的超級電腦,也讓 NVIDIA 明白如何為大型人工智慧機器設計我們的系統。它象徵著超級運算技術一次重要的演變,將原本存在於學術界的龐大運算能力,用在運輸公司和其它想要用高效能運算來加速其計畫的產業上。
沒有可支援人工智慧技術的資料中心,卻又想要使用 NVIDIA SuperPOD 架構來滿足其需求的組織,NVIDIA 提出 DGX-Ready Data Center 計畫以協助這些單位便捷地進行部署。
NVIDIA 的資料中心託管服務提供商隨時為企業客戶提供支援服務,協助他們建立和部署 DGX 系統架構的世界級人工智慧資料中心。
創新從自己做起
DGX SuperPOD 並非唯一一款登上全球速度最快超級電腦 TOP500 排行榜的 NVIDIA 自家系統。
NVIDIA 在2016年推出的 SATURNV 系統,是當時 Green500 名單中排名全球第一的最高效超級電腦,也在 Top500 最快超級電腦中排名第 28 名。
後來的 SATURNV Volta (搭載 NVIDIA DGX-1 系統) 與 DGX-2H POD 也雙雙以其出色效能和節能省電的表現而贏得讚賞。
在最新的 Green500 排行榜裡,前25名的超級電腦中有22台採用 NVIDIA GPU。