2024年10月28日--NVIDIA今日宣布xAI在美國田納西州孟菲斯市使用NVIDIA Spectrum-X™ 乙太網路平台打造出規模龐大、搭載10萬個NVIDIA Hopper Tensor核心GPU的Colossus超級電腦叢集。NVIDIA Spectrum-X™平台為多租戶、超大規模AI工廠提供卓越性能而設計,使用標準乙太網路作為其遠端直接記憶體存取(RDMA)網路。
Colossus是全球最大的人工智慧(AI)超級電腦,用於訓練xAI的Grok系列大型語言模型,並為X Premium用戶提供聊天機器人功能。xAI正在將Colossus的規模擴大一倍,總計將搭載20萬個NVIDIA Hopper GPU。
xAI與NVIDIA在短短122天內就建置出相關配套設施與Colossus這具最先進的超級電腦,這種規模的系統通常要用到幾個月到幾年的時間建置。從安裝第一個機架到開始訓練 AI僅歷時19天。
Colossus超級電腦在訓練規模極為龐大的Grok模型時,展現出前所未有的網路效能。在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況。Colossus超級電腦藉由 Spectrum-X壅塞控制功能,保有95%的資料輸送量。
標準乙太網路會無法大規模達到這樣的效能水準,會造成上千次的流量碰撞,又只能提供60%的資料輸送量。
NVIDIA網路事業部資深副總裁Gilad Shainer表示:「AI正成爲關鍵業務,需要更高的效能、安全性、擴充能力和成本效益。設計NVIDIA Spectrum-X乙太網路平台的目的,就是要為xAI這一類創新公司能夠更快速處理、分析和執行AI工作負載,以加速開發、部署 AI 解決方案,並且更快推向市場。」
Elon Musk在X上表示:「Colossus是世界上最強大的訓練系統。xAI團隊、NVIDIA及我們的眾多合作夥伴與供應商表現非常出色。」
xAI的發言人表示:「xAI建造出世界上最大、最強大的超級電腦。NVIDIA的Hopper GPU加上Spectrum-X讓我們能夠突破大規模訓練AI模型的界限,並在乙太網路標準基礎上,建造一個擁有超級加速、並最佳化的AI工廠。」
Spectrum-X 平台的核心是Spectrum SN5600 乙太網路交換器,它支援高達800Gb/s的連接埠速度,並且採用Spectrum-4交換器ASIC。xAI 選擇將Spectrum-X SN5600交換器搭配NVIDIA BlueField-3® SuperNIC使用,以獲得前所未有的效能。
適用於AI的 Spectrum-X 乙太網路技術帶來了先進功能,能提供先前僅在InfiniBand提供帶有低延遲和短尾延遲特性的高效且可擴充的頻寬。包括採用NVIDIA Direct Data Placement技術的自適應性路由、壅塞控制,以及更強大的AI架構可視性和效能隔離等功能,都是多租戶生成式AI雲端環境及大型企業環境的重點需求。
關於NVIDIA(輝達)
NVIDIA(輝達)為加速運算領域的先驅。