隨著全球開始從通用運算轉為採行加速運算技術,想要找出大規模建置資料中心基礎設施的路徑,變得比過去更加重要。企業在設計和部署基礎設施以支援處理這些新的人工智慧(AI)工作負載時,必須要在未知的領域摸索。
模型功能和軟體框架的不斷發展,再加上這些工作負載的新穎性,代表各種最佳實務和標準化方法仍是處於起步階段。這種不穩定的狀態會讓企業難以確立長期策略,也難以放心投資建設基礎設施。
為了因應這些挑戰,NVIDIA 推出了企業參考架構(Enterprise Reference Architecture,Enterprise RA)。這些全面性的藍圖(blueprint)可協助 NVIDIA 系統合作夥伴與共同客戶建立自己的 AI 工廠,也就是用於製造智慧且高效能、具擴充性、安全的資料中心。
建置 AI 工廠,開啟企業成長動能
NVIDIA Enterprise RA 提供全端軟硬體的相關建議,並且針對處理現代 AI 工作負載的最佳伺服器、叢集與網路配置提供詳細指南,協助組織在設計 AI 工廠時避免隱患。
Enterprise RA 可提供簡化的方法來建置彈性且具成本效益的加速基礎設施,同時確保相容性與互通性,以縮短部署 AI 基礎設施解決方案的時間與成本。
每個 Enterprise RA 均包括以下建議項目:
以最佳化的 NVIDIA 認證伺服器配置為基礎的加速基礎架構,搭載最新的 NVIDIA GPU、CPU 與網路技術,並經過測試與驗證,可提供規模化的效能。
配備 NVIDIA Spectrum-X AI 乙太網路平台與 NVIDIA BlueField-3 DPU 的 AI 最佳化網路,提供最高水準的網路效能,並在多個設計點提供最佳化網路配置的指引內容,以配合各種工作負載與規模的需求。
適用於生產AI 的 NVIDIA AI Enterprise 軟體平台,包含可輕鬆建置與部署 AI 應用的 NVIDIA NeMo 及 NVIDIA NIM 微服務,以及可用於基礎設施佈建、工作負載管理與資源監控的 NVIDIA Base Command Manager Essentials。
企業在採用 NVIDIA 合作夥伴以 Enterprise RA 開發出的解決方案來部署 AI工作負載時,將可在以下方面獲益,Enterprise RA 是以 NVIDIA 多年來在設計與建構大型運算系統的專業知識為基礎:
加速上市時間:透過使用 NVIDIA 的架構化方法與建議的設計內容,企業可以加快部署 AI 解決方案的速度,縮短實現商業價值的時間。
效能:以經過測試與驗證的技術為基礎,確保能以最佳效能處理 AI 工作負載。
可擴充性與可管理性:開發 AI 基礎設施,同時結合設計上的最佳實務,以實現彈性調整和擴充性,並協助確保最佳的網路效能。
安全性:在以零信任為設計理念的 AI 基礎設施上安全運行工作負載,支援機密運算,且針對最新的資訊安全 AI 創新技術進行最佳化。
降低複雜性:透過針對 AI 工作負載最佳的伺服器、叢集與網路配置,加快部署時程,同時避免設計與規劃上的隱患。
上市時間
基於 NVIDIA Enterprise RA 的解決方案可自 NVIDIA 全球合作夥伴取得,包括戴爾科技集團(Dell Technologies)、慧與科技(Hewlett Packard Enterprise)、聯想集團(Lenovo) 及美超微(Supermicro)。
深入了解 NVIDIA 認證系統與 NVIDIA 企業參考架構。