低功率設計保持SoC優勢

本文作者:admin       點擊: 2007-01-17 00:00
前言:
在65奈米或更小尺寸的CMOS中實現SoC將達到業界中功耗調整的極限,因為未來深次微米CMOS電晶體中的功耗調整將無法與整合密度成比例。而結果是每單位面積矽的功耗將要接近臨界水平。由於再也無法依賴於基礎半導體製程固有的低功率性能,設計者必須找到可降低功耗的新方法。他們需要解決的不僅僅是動態功耗。對於65奈米CMOS而言,漏電流的影響已經非常大,因此,找到可同時減少靜態功耗的解決方案也很重要。

對數位系統而言,矽晶片理論發展和實際設計之間的設計鴻溝(design gap)已呈現穩定狀態。細胞重用已為IP重用和子系統及架構重用所代替。現在,SoC設計領域已經在考慮晶片重用 - 將若干已完全驗證的"chiplet”拼成單片矽。100奈米以下的CMOS製程技術將繼續用於經濟有效地實現這些設計。最新的大規模SoC已經是包括一組CPU、DSP、向量處理器和硬體加速器的不同種類單元的多處理器系統。

降低這些處理器資源的功耗已成為關鍵設計要求,尤其是對於電池供電攜帶型設備,如行動電話的SoC。隨著行動電話擁有多媒體功能,如Internet瀏覽、電視收看和3D遊戲等,改變的不僅僅是行動電話的計算能力。行動電話的計算能力必須保持有效的時間長度,在以前是長期處於待機狀態,只有較短的使用時間;而現在的情況則是會有長達幾個小時的高強度計算活動,但仍然必須使電池有足夠的電量支持行動通信。而在此期間,電池儲存容量只略有增長。

在未來,情況會更顯麻煩。在65奈米或更小尺寸的CMOS中實現SoC將達到本行業中功耗調整的極限,因為未來深次微米CMOS電晶體中的功耗調整將無法與整合密度成比例。而結果是每單位面積矽的功耗將要接近臨界水平。

由於再也無法依賴於基礎半導體製程固有的低功率性能,設計者必須找到可降低功耗的新方法。他們需要解決的不僅僅是動態功耗。對於65奈米CMOS而言,漏電流的影響已經非常大,因此,找到可同時減少靜態功耗的解決方案也很重要。

動態功耗
CMOS數位晶片的動態功耗透過下列關係式來估算:

Pdynamic    (    CV2f

其中 C = 切換電容
V = 電壓
         f = 切換頻率

容量和對於既定數量的閘電路的晶片面積由製程/庫技術決定。這意味著,在既定製程技術下,只能通過降低時鐘頻率、電源電壓(Vdd)或組合方式來降低動態功耗。理論上,時鐘頻率只能在製程技術於最大Vdd下可以維持的最大時鐘頻率和零頻率(停止時鐘)之間調整。電源電壓可以在製程技術的指定操作電壓範圍內調整。此外,電源電壓和時鐘頻率相互依賴,維持的時鐘頻率越高則需要的Vdd值越高。

由於簡單且便於實現,一直使用時鐘閘控形式(將時鐘頻率降低到零)的動態頻率切換方式來降低暫時空閒的晶片區域的動態功耗。但是,如果這些晶片區域再次活動,這種簡陋的開關控制對節省功耗效果甚微。

解決活動和空閒狀態功耗的另一種方法是動態頻率調整。該技術隨處理資源上的計算負載降低而逐漸降低晶片時鐘頻率,所選的頻率可以在應用程式的即時約束內完成計算任務。動態頻率調整尤其適合在已知性能水平上執行連續操作的電路,例如週邊設備,這些設備中的設備驅動程式軟體可以區分不同操作模式中的性能要求。但是對於間斷操作的電路,動態頻率切換可以達到等效的節能,並且更易於實現。

將時鐘動態地縮小到更低頻率還可以透過降低電源電壓來節省更多電力。從上述功率公式中可以發現,動態功耗與時鐘頻率成正比,與電源電壓的平方成正比。因此,只要略微降低電源電壓即可收到顯著效果。

SoC已經開始具有了降低晶片元件的時鐘頻率以及在更低電源電壓上運行這些元件的能力。這種能力是通過稱為"voltage islands”,的方式實現的,即是將附近具有共同最高時鐘頻率的IP區塊組合在一起,並以單獨的Vdd電源電壓供電。例如,恩智浦最近生產的65奈米SoC作為展現下一代消費品潛在多媒體功能的平臺,就在高速ARM1176 CPU、高速L1緩衝記憶體及其速度較低的主存取和週邊設備周圍採用了voltage islands(參見圖1a)。

在採用voltage islands的當前SoC中,每個島通常都在固定的Vdd電壓上運行。而且,這些voltage islands的存在也使得應用另一技術成為可能,即所謂的動態電壓和頻率調整(DVFS),以進一步降低功耗。DVFS在頻率調整後增加電壓調整,以便自動將每個島的Vdd調整到維持所選時鐘速度所需的最低電壓。

DVFS可以實施為開放式迴路或閉迴路過程。在開放式迴路DVFS中,為目標系統定義幾個離散的頻率和電壓操作點,然後將系統設置到最近的操作點,以保證要求的處理性能(參見圖2a)。實際上,不同操作點的數量通常限制在2和4之間,每個點都必須保證在特定處理器負載下的性能,還要考慮最壞情況的製程變化(因製程技術變化導致系統性能的變化)及操作溫度。但是,因為開放式迴路DVFS必須根據最壞情況的製程變化和操作溫度來進行決策,這意味著在許多情況下,可能仍然需要將電源電壓設置得略高一點。

閉迴路DVFS克服了這個問題,其方式是對系統中實際矽性能提供直接反饋,從而考慮製程和溫度變化。為了實現這一目標,它在每個DVFS範圍中加入性能監視器,即時測量該範圍任意點上的實際時鐘速度。性能監視器的輸出將資訊傳遞到調壓器,將該範圍的Vdd電壓調整到滿足實際條件下的矽性能要求所需的最低水平(參見圖2b)。性能監視器通常位於採用柵延遲的電路周圍,如環形振盪器。恩智浦65奈米SoC中採用的動態功率降低技術如圖1b所示。

另一項已經提議與DVFS一起用來最佳化性能和功耗的技術是襯底偏壓(body biasing)--控制CMOS電晶體的體電壓以更改其閥電壓,從而調整其切換性能。此技術的潛在優勢在於,可以同時改善動態和靜態功耗(可以強制性完全關斷電晶體),還可以用於通過補償製程技術變化,減少不符合規範的常規SoC來提高產量。但由於需要隔離矽的各個區域以控制電晶體的體電壓,襯底偏壓大大增加了設計的複雜度。此外,其優勢不可能延續到65奈米CMOS以上的製程,使得完善此項技術所需的相關研發成了問題。

降低邏輯塊中動態功耗的另一種方式是完全取消時鐘,這可以通過實施無時鐘自計時非同步邏輯來實現。這是Handshake Solutions公司(位於荷蘭艾恩德霍芬)開發的技術,它使用請求/確認信號交換機制來取代時鐘,即在任務結果可用時啟動這些任務(請求)並發出信號。這意味著,只有任務執行所涉及的那些系統元件才會消耗電力,並且系統在完成所有任務時自動進入接近零功耗的待機模式。Handshake Solutions公司已經與處理器IP提供商ARM合作生產ARM996HS處理器,這是全球第一款針對即時嵌入式低功率應用程式的可合成無時鐘ARM9ETM系列處理器。

靜態功耗
深次微米CMOS中的靜態(待機)功耗取決於通過電晶體極薄的閘極氧化物的漏電流。通過下列關係式來估算:

Pstatic (  Vdd x k x e(Vgs - Vt)/s x W/L

其中 Vdd = 電源電壓
         k = 閘極電介質的介電常數
Vgs = 電晶體閘極-源極電壓
Vt = 電晶體閾電壓
s = 特定製程參數
W = 電晶體溝道寬度
L = 電晶體溝道長度

因為W和L由電晶體設計決定,這使得調整Vdd和Vt(通過反向偏壓)是微調已完成SoC中靜態功耗的兩種基本方式。

至於頻率切換,切斷晶片未用區域的Vdd電源是最簡單的調整方法,並且有利於將這些區域的靜態功耗降低到零。但本方法不可避免地導致斷電邏輯塊的狀態損失,這意味著必須權衡通過關閉這些元件所節省的功耗與進入/退出待機時保存/還原其狀態所需的額外功率。此外,晶片上電壓切換也增加了設計的複雜度,目前的EDA工具也很難處理與嵌入式Vdd切換電晶體相關的電壓下降和定時。

在必須維持IP塊,如SRAM塊內部狀態的情況下,將Vdd降到狀態保留所需的最低電平也可以降低功耗。但此項技術節省的電力通常都不大。通過施加後偏壓以改變Vt來強制性關閉CMOS電晶體可為90奈米CMOS節約大量靜態功率,但與之前提及的體偏壓一樣,無法精確調整至65奈米或更小的CMOS。

跨越邊界
常規同步SoC架構中同時進行頻率和電壓調整的結果是,從一個時鐘或電壓範圍到另一範圍的信號傳輸必須跨頻率和/或電壓邊界。因此,時鐘範圍之間的邊界必須加入時鐘同步機制,而電壓邊界則必須包括電平轉換器,所有這一切都會增加矽的成本和複雜性。而且還延長了頻率邊界的通信延遲。這是因為同步機制通常會增加幾個延遲的時鐘週期,在CPU匯流排界面上這會降低CPU性能。因此,將來的SoC可能採用新的系統架構,以克服這些影響。

一種當前樂於採用的方法是GALS(總體非同步、局部同步)架構。此方法非常適合於動態頻率調整,它將晶片劃分成若干個獨立的時鐘範圍,每個時鐘範圍在內部進行同步,而通過非同步通信通道進行相互通信。在這些通信通道中增加路由器,可將這些架構變成晶片上網路。在這樣的架構中,可以使用頻率或電壓切換將整個子系統關閉一段時間。儘管最初是設計來克服另一問題,即由於大規模SoC中的長時鐘分佈和信號互連長度,時序收斂(timing closure)正越來越難以實現,但是,GALS架構也明顯有助於節省功率。

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11