當前位置: 主頁 > 市場&商機 >
 

晶片AI整合是PC運算的未來

本文作者:David McAfee       點擊: 2023-12-15 11:50
前言:
AMD全球副總裁暨客戶端通路事業群總經理/David McAfee

AMD在2023年1月發表Ryzen™ 7040系列行動處理器,在特定型號搭載Ryzen AI引擎註1。此專屬引擎基於AMD XDNA™架構打造,除提供更低的延遲、更長的電池續航力外,相較於將資料傳送至雲端,也在執行AI工作負載時提供更安全的環境。Ryzen AI的推出不僅是首款整合AI引擎的x86處理器,亦是為未來運算的投資,但為何要一開始就把AI引擎整合到晶片內?

過去一年,業界與社會大眾見識到ChatGPT、Stable Diffusion以及其它生成式AI的能力,使各界對AI的興趣急速升高。雖然AI部署尚處於萌芽階段,但AI領域隨著微軟、Google與Adobe等公司投入發展後迅速成熟。

運算產業過去目睹工作負載從研究實驗室與超級電腦設定轉移到個人運算裝置。消費級CPU內建浮點運算單元(FPU)以及平價消費級3D繪圖卡問市,都是轉移實例。過去這些全新科技的整合,經常會以出乎預料的方式帶動不同時期的高度成長。

CPU製造商在1990年代初期開始在CPU晶粒(on-die)添加浮點運算共處理器(co-processor),《毀滅戰士》等遊戲因採用定點運算數學(fixed-point math)而受到讚譽。愈加普遍的浮點運算單元讓《雷神之鎚》等遊戲大幅提升視覺品質與畫面更新率,從而在短短數年發展成3D遊戲。

相同的發展進程也讓複雜參數電腦輔助設計(CAD)應用帶來的生產力效益能從5萬美元等級工作站向下普及到5,000美元等級的PC,科技平民化讓更多企業有能力負擔。在此之後,CPU加入AVX SIMD指令帶來大幅提升的浮點運算效能,不僅促成光線追蹤渲染,也讓過去只在好萊塢電影才能看到的華麗影像成真。

首款消費級3D繪圖卡問市是另一個科技以出乎意料的方式帶動成長的實例。這些裝置立即應用於繪製陰影和有紋理的三角形,用於顯示3D物件。遊戲產業對這些初期推出的繪圖卡效能要求持續攀升,於是裝置製造商便開始新增有限的可程式性,最終轉變成現今的通用SIMD運算引擎。這些相同的GPU引擎加入高精準度64位元浮點運算功能,並被應用於模擬與科學分析程式,近期更轉型成適合處理低精準度資料型式的AI模型。

上述所有這些實例中,不論是消費級或商業用途,新的使用案例隨著技術普及和加速器效能提升不斷出現。AI也即將出現相似的躍進式發展。Ryzen 7040系列處理器的特定型號支援初期採納者的處理需求,其不僅看重專屬AI引擎帶來的額外運算力與獨特功能,也需要為更多傳統處理的軟體最佳化提供支援。

使用對的工具執行對的任務
Ryzen AI具備在處理器的數個不同運算引擎上執行AI工作負載的能力。執行的最佳途徑取決於任務類型、軟體支援、模型最佳化以及系統內每個運算引擎的相對能力。Ryzen 7040行動系列處理器在同級產品中獨樹一格,因為其提供領先的CPU、GPU以及基於AMD XNDA架構運算能力的靈活性。開發人員與終端使用者藉此在執行工作負載上獲得前所未有的靈活性,即使在AI工作負載長期演變下也能持續調適。

CPU對比AMD XDNA架構執行
Ryzen 7040處理器採用基於“Zen 4”架構的CPU核心,並支援AVX-512指令集架構(ISA,Instruction Set Architecture)。此專屬指令集讓CPU在支援應用中以大幅提升的速度執行AI工作負載。CPU通常不會用來訓練AI模型,但CPU適合執行特定推論工作負載。當應用可支援時,AVX-512就能提供額外的優勢。“Zen 4”架構除為處理AI工作負載提供獨特能力外,也帶來相對於AMD XDNA AI引擎的架構優勢。

圖:傳統多核心CPU處理器對比AMD XDNA AI引擎
 
上圖的左側顯示傳統多核心CPU,其包括混合的獨立與共用快取記憶體,以及CPU連至主記憶體的鏈路。右側則是AMD XDNA AI引擎方塊圖,以及其根本上截然不同的記憶體架構。

傳統CPU依賴專有與共用快取記憶體的混合結構來降低記憶體存取延遲與增進效能。CPU核心之間的通訊是透過共用互連架構或共用快取記憶體。這種安排在CPU擅長的工作負載上可良好執行,但對於AI引擎卻不是最佳解決方案。AI引擎在確定性排程記憶體的執行上發揮得最好,但典型CPU記憶體延遲會根據資訊是在快取記憶體內,還是必須從主記憶體檢索而有所變化。

GPU對比AMD XDNA架構執行
GPU最近成為執行AI工作負載的運算引擎首選,因其擁有可程式化的著色器架構、高度平行性以及有效的浮點運算功能。此外,Ryzen 7040系列處理器採用基於AMD RDNA™ 3架構的繪圖處理器,為執行AI工作負載提供另一個強大的引擎。

在許多AI工作負載上,GPU能提供比CPU更高的效能。但GPU也可能存在限制,導致其在AI處理方面不如專屬硬體的最佳化。GPU經常含有對3D渲染至關重要,但在執行AI程式碼時派不上用場的硬體模塊,以致其效率不如專屬加速器。此外,GPU強調透過成百上千個核心執行作業。其運用本身精密的記憶體架構(非上圖所示),並利用繪圖工作負載的平行化特性來掩蓋掉快取記憶體的錯失。這些能力對於繪圖渲染至關重要,但並不是提升AI處理器效能的必要方式。

 
AMD Ryzen AI概念驗證
上圖的左側顯示典型類神經網路,右側則是AMD Ryzen AI引擎核心的AMD XDNA自行調適資料流程架構。從L1到L6的連接模擬了人類腦中神經元的連接方式。Ryzen AI引擎具有靈活性,能根據工作負載的基礎特性以不同方式分配資源,而上圖為概念驗證。

想像在每個神經元層上的工作負載,執行矩陣乘法或卷積操作,對輸入資料進行處理後再把新數值傳到管線的下個神經元。AMD XDNA架構為資料流程架構,可將資料從運算陣列傳至另一個運算陣列,不須用到龐大耗電且昂貴的快取記憶體。資料流程架構的其中一個目標是避免快取記憶體錯置導致的意外延遲,因為其不需要用到快取記憶體。這種設計凸顯出高效能,且不用遭受從CPU快取記憶體擷取資料的延遲代價。另外,這也避免大型快取記憶體增加的耗電。

在AMD XDNA架構上執行AI的優勢
高效能CPU與GPU技術是AMD長期AI策略的重要支柱,但其相較在晶粒上整合AI引擎,影響力可能不這麼深遠。現今各界已開始運用AI引擎來分擔CPU與GPU的特定處理任務。將背景模糊、人臉偵測以及消除雜訊等任務移交給專屬AI引擎,能騰出CPU與GPU的處理週期來處理其他任務,同時增進效率表現。

將AI整合到APU也能發揮許多優勢。首先,相較透過PCIe®匯流排連接設備,這種整合能降低延遲與提升效能。AI引擎整合到晶片內,不僅能共用存取記憶體的通道,也能最佳化資料的移動以達到更高的效率。最後,矽與晶粒的整合可更輕鬆在全新處理器模塊上運用先進能源管理技術。

雖然可透過PCI Express®插槽或M.2插槽連接外部AI引擎,但更好的方式是將這方面功能直接整合到最先進的“Zen 4”與AMD RDNA™ 3晶片,讓客戶不必犧牲上述優勢即可使用AI功能。使用本地端處理器的應用,則能獲得更快的回應速度以及更穩定的效能。

當前是AI發展令人振奮的時期。客戶、企業與製造商現在從各層面與功耗範圍評估AI。在這個持續演化的領域,唯一可確定的是如果我們能展望未來5到7年的進展,我們就不會只看到能比ChatGPT、Stable Diffusion或Midjourney做得更好的模型。未來必定會出現許多人們目前還想不到的AI模型與應用。AMD已將AI效能提升整合到特定Ryzen 7040行動系列處理器,讓開發人員與終端使用者獲得所需的靈活性與支援,用來體驗與評測,最終實現理想的未來。

本文中使用或提及第三方企業的圖標、標誌、產品、服務或解決方案,僅為敘述之用,AMD並無以明示或暗示之意為其做背書。GD-83

註1:Ryzen™ AI技術相容於Ryzen 5 7540U與Ryzen 3 7440U以外的所有AMD Ryzen 7040系列處理器。需要OEM廠商的支援。在購買產品之前,請洽詢該產品製造商的支援功能。GD-220
 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11