當前位置： 主頁 > 新聞 >

廣泛且開放的HPC+AI產品組合為效能和科學用生成式AI注入動力

本文作者：英特爾點擊： 2023-05-25 16:22

前言：

從嚴苛要求記憶體再到生成式AI等各類高效能運算（HPC）和人工智慧（AI）工作負載英特爾在2023年國際超級電腦大會詳細介紹其具競爭力的產品效能，並推出新的科學LLM計畫，藉此達成AI民主化

英特爾在2023年國際超級電腦大會（ISC High Performance）上，展示高效能運算（HPC）和人工智慧（AI）工作負載的領先效能，並分享以oneAPI開放式程式設計模型為中心的未來HPC和AI產品；同時也宣布一項國際計畫，利用Aurora超級電腦為科學和社會開發生成式AI模型。

更多內容：2023年國際超級電腦大會（引言表）

英特爾公司副總裁暨超級運算事業部總經理Jeff McVeigh表示：「英特爾致力為HPC和AI社群提供產品服務，協助客戶和終端使用者能夠更快達成突破性的發展。我們的產品組合橫跨Intel® Xeon® CPU Max系列、Intel® Data Center GPU Max系列、第4代Intel® Xeon®可擴充處理器和 Habana® Gaudi®2，於多項工作負載表現均優於競爭對手，提供能源和總擁有成本優勢，讓AI民主化的同時，還提供選擇性、開放性和靈活性。」

大規模硬體效能提升

在英特爾的特別演說中，McVeigh聚焦於橫跨硬體範疇的最新、具競爭力的效能結果，並與客戶分享強勁的態勢。

 Intel Data Center GPU Max系列在多樣化的工作負載表現，比NVIDIA H100 PCIe卡平均高出30％1，獨立軟體供應商Ansys則展示在AI加速HPC應用上，Max系列GPU相較H100更快50％。2

 Xeon Max系列CPU是唯一具備高頻寬記憶體的x86處理器，在High Performance Conjugate Gradients（HPCG）基準測試當中，比AMD的Genoa處理器提升65％1，且耗電量更少。高頻寬記憶體已被視為HPC客戶最需要的功能之一。3

 在HPC當中應用最廣的第4代Intel Xeon可擴充處理器，比AMD的Milan平均速度提升50％4，能源公司BP的最新第4代Intel Xeon HPC叢集，比起前一代處理器的效能提升8倍，並改善了能源效率。2

 Gaudi2深度學習加速器在深度學習訓練和推論方面的表現頗具競爭力，其效能比NVIDIA A100快2.4倍。1

英特爾客戶近日公開使用第4代Intel Xeon和Max系列處理器的新安裝部署：

 日本京都大學正在為Laurel 3和Cinnamon 3部署第4代Xeon，並為Camphor 3部署Xeon Max系列處理器。

 義大利Cineca部署使用第4代Intel Xeon處理器的Leonardo。

 美國羅徹斯特大學－雷射能量學實驗室正在部署使用第4代Xeon處理器的叢集。

 阿根廷國家氣象局將部署一款同時包含Max系列CPU和GPU的系統。

此外，英國劍橋大學的Cambridge Open Zettascale實驗室已在英國部署首個Max GPU測試平台，並於分子動力學和生物成像應用方面看到正向的早期成果。日本理化學研究所（RIKEN）也宣布與英特爾簽屬合作備忘錄（MOU），將專注於AI、HPC和量子運算等先進運算技術領域，加速聯合研究與開發。作為合作備忘錄的其中一項內容，理化學研究所還將與英特爾晶圓代工服務合作，打造這些全新解決方案的原型。

為各項工作負載提供具有競爭力的處理器

動態、新興的HPC和AI工作負載需要一個完整的硬體與軟體解決方案產品組合。McVeigh綜述英特爾的各項資料中心產品，這些產品為HPC社群提供許多選擇和解決方案，協助實現AI民主化。

McVeigh在演說中介紹英特爾的次世代處理器，將能夠滿足高記憶體頻寬需求。英特爾所引領的生態系為Granite Rapids開發一款新型DIMM－Multiplexer Combined Ranks（MCR）。MCR在DDR5的基礎上達成8,800MT/s速度，在雙插槽系統中實現大於1.5TB/s的記憶體頻寬能力。提升此類的記憶體頻寬，對於滿足現代CPU快速成長的核心數量，以及實現效率和靈活性而言十分重要。

英特爾還公開Supermicro推出的新款、針對AI最佳化的x8 Max系列GPU子系統，專為加速深度學習訓練而設計。除了今年稍晚可透過Intel® Developer Cloud beta使用該系統之外5，多家OEM將提供包含Max系列GPU x4和x8 OAM子系統和PCIe卡的解決方案，這些解決方案預計於今夏上市。

英特爾的次世代Max系列GPU－Falcon Shores，能夠為客戶提供靈活性，實現系統級的CPU和獨立GPU組合，以因應未來新興且快速變化的工作負載。Falcon Shores使用模組化、晶片磚架構，其特色如下：

 支援HPC和AI資料格式，從FP64到BF16再到FP8。

 支援最高達288GB的HBM3記憶體，總頻寬最高達9.8TB/s，大幅度提升高速I/O。

 能夠使用CXL程式設計模型。

 透過oneAPI提供統一的GPU程式設計介面。

用於科學領域的生成式AI

美國阿貢國家實驗室與英特爾和HPE合作，宣布計畫為科學研究社群建立一系列生成式AI模型。

美國阿貢國家實驗室副實驗室主任Rick Stevens表示：「該計畫旨在充分汲取Aurora超級電腦的全部潛力，藉此產出可用於能源部實驗室以及與其它單位合作，以便進行後續科學研究的資源。」

這些用於科學的生成式AI模型，將使用一般文字、程式碼、科學文本，以及來自生物學、化學、材料科學、物理學、醫學和其它來源的結構化科學資料進行訓練。

由此產生的模型（多達1兆個參數）將被用在各式各樣的科學應用，其中包含分子和材料設計，並從數百萬個來源綜合知識，提出系統生物學、高分子化學與能源材料、氣候科學、宇宙學等領域的新奇實驗。該模型還會用於加速辨識癌症和其它疾病有關的生物過程（biological process），並提出藥物設計目標。

阿貢實驗室正在帶領國際合作、推進計畫，合作夥伴包含英特爾、HPE、美國能源部實驗室、美國與國際間的大學、非營利組織以及日本理化學研究所等國際合作夥伴。

此外，英特爾和阿貢實驗室亦說明Aurora的安裝進度、系統規格和早期效能結果：

 英特爾已完成Aurora超級電腦的實體交機，共計超過10,000台刀鋒伺服器。

 使用HPE Cray EX超級電腦建構完整的Aurora系統，將有63,744個GPU、21,248個CPU以及1,024個儲存節點。並且將使用HPE Slingshot高效能乙太網路。

 早期測試結果顯示，於真實世界的科學和工程工作負載具有領先的效能表現，可高達AMD MI250 GPU效能的2倍，在QMCPACK量子力學應用比H100提升20％；擴展至數百個節點時，其效能增加比例接近線性提升。2

Aurora預計在今年推出時，可提供超過2 exaFLOPS的峰值雙精度運算效能。

oneAPI實現高生產力、開放的加速運算

全球約有90％的開發者，使用或是受益於為英特爾開發或最佳化的軟體。6自2020年推出oneAPI程式設計模型以來，開發者已在來自多個硬體供應商，不同的CPU、GPU、FPGA和AI晶片上展示oneAPI，解決單一供應商把持加速程式設計模型的挑戰。最新的Intel® oneAPI透過OpenMP GPU卸載進而加速HPC應用，延伸支援OpenMP和Fortran，並透過最佳化框架來加速AI深度學習，包含TensorFlow、PyTorch以及相關AI工具，讓效能獲得數個量級的提升。

為了讓程式設計師更容易開發oneAPI多架構程式，oneAPI實作SYCL，並由Codeplay開發針對NVIDIA和AMD處理器的外掛程式，以及Intel® DPC++相容性工具（使用開放原始碼SYCLomatic）；這款工具可以將CUDA轉換至SYCL和C++，一般而言可自動轉換90％〜95％程式碼。7透過這種方式產生的SYCL程式碼，可比擬在NVIDIA和AMD原生系統語言上執行相同程式碼的效能。資料顯示，於Max系列GPU執行DPEcho天文物理學應用SYCL程式碼，其效能相較在NVIDIA H100執行同樣的CUDA程式碼更高出48％。1

擁抱SYCL的生態系正在蓬勃發展。Atos旗下的Eviden宣布與英特爾合作推出CEPP one+，這是一款使用Eviden卓越效能程式設計中心（CEPP）的HPC∕AI程式碼現代化服務。CEPP one+將專注接納SYCL和OpenMP，為社群做好異質運算環境的準備，同時透過開放標準提供硬體選擇的自由。

本月熱點 HOME

欄目熱點 HOME

廣泛且開放的HPC+AI產品組合 為效能和科學用生成式AI注入動力

廣泛且開放的HPC+AI產品組合為效能和科學用生成式AI注入動力