搭載 NVIDIA 技術的系統在 MLPerf 高效能運算 (HPC) 1.0 的五項測試中,有四項拔得頭籌,MLPerf HPC 1.0 是用於衡量 HPC 領域之人工智慧 (AI) 效能的產業基準。
這是 MLPerf 的最新測試結果,MLPerf 是一套在 2018 年 5 月首次發布的深度學習產業基準。MLPerf HPC 提出了一種運算方式,用 AI 加速及增強超級電腦上的模擬作業。
在分子動力學、天文學及氣候模擬方面的最新進展,皆採用了「HPC + AI」的模式,在科學研究上取得突破性成就。這項趨勢推動科學與工業領域的用戶採用 Exascale 等級的 AI。
這些基準測量那些內容
MLPerf HPC 1.0 使用 HPC 中心的三種典型作業負載,測量 AI 模型的訓練結果。
CosmoFlow 估計望遠鏡影像中的物體細節
DeepCAM 測試氣候資料中的颶風和大氣河流的偵測
OpenCatalyst 追蹤系統對分子內原子之間作用力的預測程度
每項測試分為兩個部分。衡量系統訓練模型的速度稱為強縮放 (strong scaling),而與其對應的弱縮放 (weak scaling) 則是用於測量系統的最大處理量,即系統在特定時間內能訓練模型的數量。
與去年進行的 MLPerf 0.7 回合強縮放最佳結果相比,NVIDIA 在 CosmoFlow 方面的表現進步 5倍。在 DeepCAM 方面的表現更是進步 7 倍。
勞倫斯柏克萊國家實驗室 (Lawrence Berkeley National Lab) 的 Perlmutter Phase 1 超級電腦系統,使用其 6,144 個 NVIDIA A100 Tensor 核心 GPU 中的 512 個 GPU,在 OpenCatalyst 基準測試的強縮放類別中領先。
在弱縮放類別中,我們使用 16 個節點來處理每項作業,同時處理 256 個作業以在 DeepCAM 類別中領先。所有的測試皆在我們的內部系統,同時也是全球最大的工業超級電腦 NVIDIA Selene (如上圖) 上進行。
圖_NVIDIA 在訓練模型的速度與每片晶片的效率方面皆取得了領先的成績
最新的測量結果展現出 NVIDIA AI 平台的另一個維度,與其領先業界的效能表現。這象徵著 NVIDIA 第八次在 MLPerf 基準測試中拿下最高分,這些測試涵蓋了資料中心、雲端和網路邊緣的 AI 訓練與推論作業。
廣泛的商業生態系
在這一回合測量活動中的八名參賽者,有七名使用 NVIDIA 的 GPU。
這些單位包括德國的 Jülich 超級電腦中心 (Jülich Supercomputing Centre)、瑞士國家超級運算中心 (Swiss National Supercomputing Centre),以及美國的阿貢國家實驗室 (Argonne National Laboratory) 和勞倫斯柏克萊國家實驗室、國家超級電腦應用中心 (National Center for Supercomputing Applications) 及德州先進運算中心 (Texas Advanced Computing Center)。
Jülich 超級電腦中心主任 Thomas Lippert 在一篇部落格文章中寫道:「我們藉由這項基準測試,證明我們的超級電腦能發揮潛力來處理各項實際運算作業,有助於歐洲保持在 AI 方面的領先地位。」
MLPerf 基準獲 MLCommons 的支持,這是一個由阿里巴巴 (Alibaba)、Google、英特爾 (Intel)、Meta、NVIDIA 等公司所率領的產業組織。
我們怎麼做到的
一個包含完整軟體堆疊的成熟 NVIDIA AI 平台,造就出如此優秀的表現。
我們在這一回合的測量活動中,利用大家都能拿到的工具來調整程式碼,像是使用 NVIDIA DALI 加速資料處理;使用 CUDA Graph 減少小批量的延遲,以有效地擴大到最多 1,024 個或更多的 GPU。我們還用了 NVIDIA MagnumIO 裡的關鍵組件之一 NVIDIA SHARP,它提供網路運算功能,以加速通訊及將資料操作卸載到 NVIDIA Quantum InfiniBand 交換器。
請參閱我們的開發者部落格,更深入地了解我們如何使用這些工具。
可以從 MLPerf 資源庫中下載我們用於提交測試結果所使用的各項軟體。我們定期將這些程式碼加至 NGC 目錄,在這個軟體中心裡可以取得預先訓練的 AI 模型、產業應用程式框架、GPU 應用程式及其它軟體資源。