2024年11月4日--Arm 正在與 Meta 公司的 PyTorch 團隊攜手合作,共同推進新的 ExecuTorch 測試版(Beta)上線,其目標在為全球數十億邊緣端裝置和數百萬開發人員提供人工智慧(AI)和機器學習(ML)功能,進而確保 AI 真正的潛力能被最廣泛的裝置和開發人員所使用。
借助 ExecuTorch 和新的 Llama 量化模型,Arm 運算平台優化生成式 AI 效能
Arm 運算平台無處不在,為全球眾多邊緣端裝置提供支援,而 ExecuTorch 則是專為行動和邊緣端裝置部署 AI 模型而設計的 PyTorch 原生部署框架。兩者的緊密合作,使開發人員能夠促成更小、更優化的模型,包括新的 Llama 3.2 1B 和 3B 量化模型。這些新模型可以減少記憶體佔用、提高準確性、強化效能和提供可攜性,成為小型裝置上的生成式 AI 應用的理想選擇,例如虛擬聊天機器人、內容摘要和 AI 助理等。
開發人員無需額外的修改或優化,便可將新的量化模型無縫整合到應用中,進而節省時間和資源。因此,他們能夠迅速在廣泛的 Arm 裝置上大規模開發和部署更多智慧的 AI 應用。
隨著 Llama 3.2 大語言模型(LLM)新版本的發佈,Arm 正在透過 ExecuTorch 框架優化 AI 效能,使得在 Arm 運算平台邊緣端裝置運行的真實生成式 AI 工作負載能更加快速。在 ExecuTorch 測試版發佈的首日起,開發人員便能享有這些效能的提升。
整合 KleidiAI,加速行動裝置生成式 AI 的實現
在行動裝置領域,Arm 與 ExecuTorch 的合作代表眾多生成式 AI 應用,如虛擬聊天機器人、內容生成和摘要、即時語音和虛擬助理等,完全能夠在搭載 Arm CPU 的裝置上以更高的效能運行。這一成果受惠於 KleidiAI,它導入了針對 4 位元量化優化的微核心,並透過 XNNPACK 整合在 ExecuTorch 中,因此,在 Arm 運算平台上運行 4 位元量化的 LLM 時,可無縫加速 AI 工作負載的執行。例如,透過 KleidiAI 的整合,Llama 3.2 1B 量化模型預填充階段的執行速度可以提高 20%,使一些基於 Arm 架構的行動裝置上的內容生成速度超過了每秒 400 個詞元(token)。這代表終端裝置使用者將從他們的行動裝置上獲得更快速、回應更靈敏的 AI 體驗。
瞭解更多 Arm 在行動裝置市場對 ExecuTorch 的支持,請參考這篇部落格。
為物聯網在邊緣端 AI 應用加速即時處理能力
在物聯網領域,ExecuTorch 將提高邊緣端 AI 應用的即時處理能力,包括智慧家電、可穿戴裝置以及自動零售系統等。這代表物聯網裝置和應用能夠以毫秒級的速度回應環境變化,這對保障安全性和功能可用性相當重要。
ExecuTorch 可在 Arm® Cortex®-A CPU 和 Ethos™-U NPU 上運行,以加速邊緣端 AI 應用的開發和部署。事實上,透過將 ExecuTorch 與 Arm Corstone™-320 參考平台(也可做為模擬固定虛擬平台〈FVP〉使用)、Arm Ethos-U85 NPU 驅動程式和編譯器支援整合到一個套裝軟體中,開發人員可在平台上市前幾個月就著手開發邊緣端 AI 應用。
瞭解更多 Arm 在物聯網領域對 ExecuTorch 的支持,請參考這篇部落格。
更易獲取、更快捷的邊緣端 AI 開發體驗
ExecuTorch 有潛力成為全球最受歡迎的高效率 AI 和 ML 開發框架之一。透過將應用最廣泛的 Arm 運算平台與 ExecuTorch 相結合,Arm 正在透過新的量化模型加速 AI 的普及,讓開發人員能夠更快地在更多裝置上部署應用,並將更多生成式 AI 體驗導入邊緣端。
關於 Arm
Arm 是業界效能最高且最節能的運算平台,其無可比擬的應用範疇觸及全球所有連網使用者。為因應全球對運算永無止境的需求,Arm 提供先進的解決方案,使全球領先的科技公司得以釋放前所未有的 AI 體驗與功能。透過與全球最大的運算生態系及 2,000 萬名軟體開發人員的共同努力,我們正在 Arm 平台上建構 AI 的未來。
所有資訊都「依目前情況」提供,且並不帶保證或代表性。此文件可以自由分享,但不得修改且必須註明出處。Arm 是 Arm Limited(或其子公司與附屬機構)的註冊商標。所有品牌或產品名稱均為所屬公司之財產。© 1995-2024 Arm Limited.