當前位置: 主頁 > 策略&營運 >
 

Red Hat: llm-d 社群專案滿足對可擴展生成式 AI 推論的需求

本文作者:馬承信       點擊: 2025-06-12 11:45
前言:
 
圖片人物左至右為:Red Hat 台灣區總經理孫媛音、 Red Hat 亞太區技術長Vincent Caldeira 、Red Hat 首席資深解決方案架構經理游政杰

    Red Hat 在 2025 年 Red Hat Summit 正式推出全新開源專案 llm-d,旨在解決生成式 AI 時代日益增長的大規模推論需求。該專案建構於原生 Kubernetes 架構之上,整合 vLLM 的分散式推論能力與 AI 感知網路路由,打造一個能支援嚴苛生產服務水準(SLO)的雲端大型語言模型推論平台。Red Hat 強調,隨著生成式 AI 應用走向成熟,企業若要真正發揮 AI 模型價值,關鍵在於高效、可擴展的推論能力,而不僅止於模型訓練。
 
    Gartner 預測,到了 2028 年,超過 80% 的資料中心工作負載加速器將專注於 AI 推論。這項轉變凸顯推論對未來 AI 發展的重要性,尤其在模型規模日益龐大、資源需求上升的情況下,傳統集中式推論面臨高成本與延遲問題,成為 AI 創新的瓶頸。 Red Hat 亞太區技術長Vincent Caldeira 表示,llm-d 專案的啟動代表業界對可擴展 AI 推論的共同承諾,並將協助企業在混合雲架構中實現更彈性且高效的 AI 部署,支援任何模型、加速器與雲端環境。
 
    llm-d 是 Red Hat 結合業界夥伴共同推出的開源專案,目標是打破單一伺服器限制,實現大規模、高效率的 AI 推論。透過 Kubernetes 的調度能力,llm-d 能將推論功能整合進企業既有 IT 架構,讓 IT 團隊能在同一平台上同時應對不同業務需求,降低 AI 加速器的總體擁有成本(TCO)。llm-d 的設計也兼顧企業規模化部署與系統整合的實務需求,幫助企業從容面對 AI 工具落地的技術門檻與資源限制。
 
    llm-d 提供一系列技術創新以實現效能與擴展性,包括:vLLM 作為開源推論伺服器的事實標準,支援多種新模型與加速器如 Google Cloud TPU;將預填與解碼階段分離、分散至不同伺服器運算;藉由 LMCache 技術,將記憶體快取從 GPU 移至成本更低的 CPU 或網路儲存;利用 Kubernetes 控制器在資源需求波動下優化調度;以及導入 AI 感知網路路由與高效通訊 API,加速伺服器間資料傳輸,並支援 NVIDIA 的 NIXL 技術。這些設計皆旨在實現推論能力的最大化,為企業在生成式 AI 時代建立穩固的運算基礎。
  
  全新開源專案 llm-d已獲得生成式 AI 模型供應商、AI 加速器領航者以及AI 雲端平台組成的強大聯盟鼎力支持。CoreWeave、Google Cloud、IBM Research 和 NVIDIA 為創始貢獻者,AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 則為合作夥伴。此外,亦獲得重要學術界創始支持者的響應,包括加州大學的 Sky Computing Lab(vLLM 的創始單位),以及芝加哥大學的 LMCache Lab(LMCache 的創始單位)。
 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11