英特爾ISSCC技術論文發表摘要

本文作者:admin       點擊: 2008-02-05 00:00
前言:
在美國時間2月3日至8日於舊金山舉行的國際固態電子電路大會(International Solid State Circuits Conference, ISSCC)中,英特爾公司發表了15篇技術論文。

為了達成無線網路移動能力、以及透過從口袋(your pocket)到其他消費電子裝置提供完整網際網路使用體驗的願景,英特爾詳細說明即將發表的45奈米(nm)、採用high-k金屬閘極的低耗電處理器架構─代號為Silverthorne,專為微型移動裝置(ultra-mobile)和移動聯網裝置(mobile Internet devices, MID)所設計。 

英特爾研究人員也將發表多項里程碑,例如:低成本的數位多重射頻(digital multi-radio)研發成果。未來的各種小型裝置只要使用一個耗電量較目前類比晶片更低的新型晶片,就能處理各種無線射頻(wireless radio)技術標準。

此外,英特爾也在下列技術領域公布更多訊息:正在進行的兆級運算(Terascale)專案與提供每秒超過一兆次(TeraFLOPS)的日常運算速度努力成果;45奈米high-k金屬閘極製程細節;代號為Tukwila的下一代Intel® Itanium®處理器,乃首顆內建超過20億個電晶體的處理器;以及英特爾在相變化(phase change)記憶體方面的進展(屬於設立中Numonyx公司的一部分)。 

處理器技術

「針對移動聯網裝置所設計,採用45奈米high-k金屬閘極CMOS,耗電量在1瓦到2瓦以下的低耗電IA處理器」 

英特爾發表全新低耗電IA微架構細節,該架構是第一代移動聯網裝置所採用的45奈米high-k金屬閘極Silverthorne處理器之基礎。 

此微架構以雙碼(dual-code)、雙指令執行(dual-issue)、循序執行(in-order execution)為基礎,採用16階處理器管線(16-stage processor pipeline),與Core 2 Duo(酷睿™2 雙核心)指令集完全相容。此微架構採用突破性的電源管理技術,如Deep Power Down (C6)狀態、非格狀時脈分送(non-grid clock distribution)、電源最佳化暫存器檔案(power-optimized register-file)、時脈閘控(clock gating)、CMOS匯流排模式,並採用split IO電源供應方式以大幅降低動態變化(dynamic)與漏電(leakage power)。 

由於採用了這些創新的電源管理技術,45奈米high-k金屬閘極材質的Silverthorne處理器可望將產生的熱量功耗(thermal power)降低達10倍(與2006年推出的超低電壓(Ultra Low Voltage)單核心英特爾處理器相較的結果),並可提供執行完整網際網路與各種應用軟體的高效能。 

該微架構是全新的設計,提供低功耗運算效能(sub-watt performance),未來亦能在1瓦功耗下以2 GHs速度運行。 

◆  ◆  ◆  ◆  ◆

「採用65奈米製程,內建20億個電晶體的四核心Itanium®處理器」


英特爾說明該公司第一款內建20億顆電晶體的四核心Itanium微處理器,代號為Tukwila,其大幅提升了效能與功能、具有更高的系統整合度、提供進階RAS功能與更大容量的快取記憶體。

Tukwila在晶粒中(on-die)內建了高達30MB的快取記憶體,較目前產品增加 了10% 以上。

新的高速QuickPath內部連接(QuickPath interconnect)與雙QuickPath整合型記憶體控制器與先進的RAS搭配整合。由於四核心晶片搭配更高頻寬與大型快取記憶體,使Tukwila的效能比目前的Intel® Itanium® 9100系列處理器快上2倍。 

在晶粒中具有更高水準的系統整合度(如四核心、QuickPath內部連接與記憶體控制器、先進RAS、大型快取記憶體等),使得效能提升超過2倍以上*,對於講究高度運算需求(mission critical)的市場而言,是一項重要的成就。

Tukwila具有更佳的軟錯誤率(Soft Error Rate, SER)免除力。這意味著軟錯誤(soft error)強化電路在設計上可提升RAS,既使邏輯電路數達3倍*,仍能達到和前一代相同的「單插座SER」(Per-socket SER)。 

電路設計支援電壓與頻率管理,可適當運用處理器的電源與散熱設計範圍 (envelope)。此種設計可視需要在效能與節能方面達成平衡。 

第一版Tukwila預計於今年下半年問世。 

◆  ◆  ◆  ◆  ◆

無線通訊技術

「採90奈米製程,針對802.11agn WLAN應用所設計,已整合前端(front end)的1x2 MIMO多頻段CMOS收發器(transceiver)」 


自從筆記型電腦平台進入無線通訊市場後,Wi-Fi無線網路的日常使用頻率就呈現指數成長。但如要切入其他平台與產品,如MID、手持式裝置與PDA等,無線裝置就需要大幅降低成本與體積。只有一種方法能達到這個目標:將更多零組件整合到無線電矽晶片中。

在這篇論文裡,英特爾展示獨特的無線電晶片初步成果,該晶片採用標準90奈米CMOS製程,完全與LNA及高效率AB類(Class-AB)功率放大器(Power Amplifier, PA)整合(以及其對應的網路)在1x2晶片中,用以支援802.11agn通訊協定。這種設計可達到低耗電、小尺寸與低成本的要求。該論文的其他重點包括: 

具有電源使用效率、具全雙頻TX及完整電源的AB類功率放大器、數位預失真(Pre-distortion)校正。 

進階數位預失真校正測量(Advanced Digital-Pre-Distortion Calibration),提供極佳效能與系統穩定度。 

雙頻(2.4G與5-6G)LNA整合。 
◆  ◆  ◆  ◆  ◆

「28.6dBm、以PWM (脈衝寬度調變)與PPM(脈衝位置調變)實作具有Envelope Restoration功能的65奈米E類功率放大器」

為了支援長距離通訊(如WiMAX),就需要功率在1瓦左右的高功率放大器。在本論文中,英特爾研究人員介紹如何以現代的65奈米製程製作PA,不需類比組件。這種製程可將PA與收發器其他部分整合,降低收發器開發成本。額外電路、布線與技術,以及交換模式操作都以電源效率極大化為考量。

此外,本論文也描述一種控制振幅/功率(amplitude/power)的新方法,調整輸入到交換式功率放大器(switching PA)的訊號脈衝寬度(pulse width),產生不同的振幅/功率標準(amplitude/power level)。這種技術可將部分引進振幅資訊的負擔轉移至數位領域,在解決問題時會比傳統作法更加容易與節省成本。本論文其他重點包括:
提供近1瓦的功率,涵蓋範圍大。

使用創新技術,引進在高速資料傳輸速率下所需的複雜調變(complex modulation)。 

採用數位65奈米CMOS製程,易於與其他數位元件整合。 
◆  ◆  ◆  ◆  ◆

「為802.11n/WiMAX接收器設計的28 mW DT ΔΣ類比數位轉換器(ADC),具頻譜感測(Spectrum-Sensing)、可重配置(Reconfigurable)功能、20MHz 72dB訊噪比(SNR)/70dB訊噪失真比(SNDR)」 
Session 27.5,2月6日上午10:45 

隨著Wi-Fi無線頻譜日益擁擠,無線電必須能在影響最小的前提下,自動選擇頻段。 

在本論文中,英特爾研究人員介紹耗電量最低的802.11n類比數位轉換器(ADC),以及第一款針對802.11n和多重射頻應用設計的可重配置ADC。本論文描述的ADC採用高取樣頻率,可測量整個Wi-Fi頻段中每一種頻段的功率。此外,ADC速度提高可提升ADC在特定頻段的動態範圍。由於可利用數位濾波器(digital filter)取代類比濾波器,因此可支援利於數位無線電的建置方式。這種ADC的耗電量是同級產品中最低者,也說明增加處理速度可提升效能。

12位元ADC可以數位電路取代類比電路,降低製造成本。

可感測其他射頻對相同頻段造成的干擾,並自行調整以達到最佳的功率與效能。

訊號強大時,可降低耗電量需求。
提供最佳頻道選擇,將實際輸出處理能力(throughput)最大化。
同時支援Wi-Fi/WiMAX頻寬時的電源使用效率。
◆  ◆  ◆  ◆  ◆

「90奈米CMOS、39.1到41.6 GHz ΔΣ分數N型(Fractional-N)頻率合成器(Frequency Synthesizer)」 


由於60 GHz頻寬的使用無需執照,因此使得毫米波(mm-wave)技術對多Gb/s(multi-Gb/s)消費市場的應用頗有吸引力。例如一個2GHz頻道可提供5Gb/s的資料傳輸速率,讓消費者在不到一分鐘的時間內(相較於舊式WLAN的1.5小時)可無線傳輸一部高畫質(HD)電影。

在本論文中,英特爾研究人員與美國喬治亞州理工學院(Georgia Tech)合作,展示第一款頻率解析度小於3kHz的mm-wave CMOS合成器。頻率合成器備用來產生區域振盪器訊號(local oscillator signal),以發射無線電的下變頻—上變頻基頻訊號(downconvert-upconvert baseband signal)。分數型合成器比傳統整數N型(integer-N)合成器的解析度高的多。更高的解析度可用以更正頻率(frequency correction),並採用更為便宜的晶體(crystal)進行追蹤。其他重點包括: 

用於多Gb/s無線通訊的mm-wave CMOS技術,是在CMOS中做為整合mm-wave射頻的基礎基本組件(building block)之用。

本解決方案可減少設計尺寸,內建校正功能可改善良率(yield)。 

具自行校正功能的除以4注入鎖定除法器(injection locking divider by 4),可降低耗電量。 

本解決方案提供多Gb/s的資料傳輸速率,用途為WPAN、無線HD等。 

◆  ◆  ◆  ◆  ◆

記憶體技術 

「多層次單元(Multi-Level Cell, MLC)雙極選擇(Bipolar-Selected)相變化記憶體」 

本論文描述英特爾與意法半導體(ST Microelectronics)合作開發計畫之相變化記憶體(Phase Change Memory, PCM)的突破。兩家公司創造全球第一個可展示採用PCM技術的多層次單元(MLC)裝置。PCM乃是以硫屬化合物材料(Ge2Sb2Te5,又稱為GST)的狀態變化為基礎。這項技術可望催生新記憶體技術,讀寫速度快,耗電比傳統快閃記憶體(flash)低,保存資料也更穩定,具備了領導記憶體技術的多項最佳特質。從一個單位只有1位元進步到MLC也可顯著提升密度,並降低每百萬位元組(Mbyte)的成本,因此MLC與PCM的結合是很重大的發展。

使用獨特的程式演算法,開發者實際上在非結晶(amorphous)與結晶(crystalline)之間創造兩個額外狀態。

如果將H2O比喻為單層次單元(single-level cell) PCM裝置,就像觀察H2O的液體(水)或結晶(冰)的狀態。藉由運用MLC技術,開發者表現出他們可以控制GST,並將它設為四種狀態。如果延用H2O的比喻,可以觀察到下列幾個狀態:非常非結晶(氣體或“00”)、非結晶(液體或”01”)、半結晶(液體與一些冰塊或“10”),以及結晶(一塊冰或“11”)。

該製程有九層銅內部連接,並大量應用low-k夾層電介質(interlayer dielectric),再加上無鉛封裝(lead-free packaging)以改善耗電與效能。

英特爾與意法半導體先前曾展示採用180奈米製程的4Mb記憶體陣列(memory array),以及使用PCM的90奈米製程之128Mbit記憶體裝置。2008年ISSCC論文資料呈現了使用PCM技術的MLC裝置資料展示(data demonstrating)。 
◆  ◆  ◆  ◆  ◆

「採45奈米自對準接觸(Self-Aligned-Contact, SAC)製程之1Gb NOR快閃記憶體,具5MB/s的程式速度」 


本論文所展示的設計包括最小的可靠快閃記憶體單元,採用45奈米製程,具備5 MB/sec的程式效能、最小的周邊電路以及可靠的感測設計。要降低生產成本,並同時提供更高的效能,就必須快速轉換到下一個技術點。要在市場上獲得成功,新45奈米光蝕刻(lithography)技術必須讓每位元的成本減少達50%,同時能提供更高的程式效能。但光蝕刻技術每進步一代,製造可靠的快閃記憶體多層次單元(MLC)和減少陣列周邊電路的尺寸影響就更加困難,特別是較低密度的產品。 

本論文展現自對準接觸(SAC)製程架構,可減少快閃記憶體單元尺寸並改善可靠度。

要達到 5MB/sec 的程式效能,必須開發多種新的電路技術,包括更大的程式頻寬、更快的確認模式(verify mode)、增加高電壓節點的迴轉率(slew rate)、將程式微碼(microcode)的輸出處理能力最大化、並減少控制硬體的延誤。

運用創新電路技術克服負面效應,例如單一單元的電荷損失/增益、誘發電荷損失與隨機電報式雜訊(random telegraphic noise)。

新感測設計的輸入差距較低,零組件數量較少,可增加MLC感測範圍。結果顯示,輸入差距電壓在Vt的一個標準差之內時,其誤差低於1 mV,感測安培差距(sense amp offset, SAOS)減少達70%。

要將1Gb的晶粒大幅縮小到30mm2的目標,需要多種周邊電路改良措施,包括列解碼器(row decoder)、區塊備援設計(block redundancy scheme)、電荷泵(charge pump)與邏輯電路。 
◆  ◆  ◆  ◆  ◆

「45奈米high-k金屬閘極CMOS技術的153Mb-SRAM設計,具備動態穩定強化措施及減少漏電能力」 


英特爾領先業界,率先採用45奈米high-k金屬閘極技術,較英特爾的65奈米技術的電晶體密度增加2倍、漏電減少十分之一、頻率增加27%,藉此開發出一種高效能、低耗電的靜態隨機存取記憶體(SRAM)。英特爾已推出32款以45奈米high-k金屬閘極技術為基礎的產品。

英特爾的45奈米SRAM充分利用high-k金屬閘極技術在擴充(scaling)方面的優點,包括功耗與效能,它可將晶粒內建L2快取記憶體增大50%,有利於在第二代 Intel® Core™ 2 Duo(酷睿™ 2雙核心)與Core 2 Quad(酷睿™2四核心)微處理器上快速量產。較小的SRAM單元利於將較大的快取記憶體整合在處理器中,有助於提升效能。 

英特爾的SRAM採可靠的時脈控制設計(time control scheme),便於量產,其以具有效率的電源管理電路,使電路更能容忍相關變動,並有助於提升製造良率。 

英特爾已開發出第二代動態休眠(dynamic sleep)技術,進一步將大型快取記憶體在所有製程、電壓與溫度變化條件下的靜態節能最大化。這些先進的設計讓英特爾的晶粒內建快取記憶體更為節能。 

英特爾也開發出名為「動態基體偏壓」(dynamic body biasing) 的新電路技術,可進一步改善SRAM單元擴充性,為未來的擴充預做準備。 
◆  ◆  ◆  ◆  ◆

「具100MB/s程式輸出處理能力與200MB/s DDR介面的50奈米8Gb NAND快閃記憶體」 

最近由英特爾與美光 (Micron)所研發的新技術都將在此呈現。在本論文中,技術人員將討論新的高速NAND (HS-NAND)快閃記憶體技術,對以矽晶片做為儲存系統的裝置而言,可大幅提昇資料存取與傳輸速度。新技術由英特爾和美光共同開發,並由兩家公司的NAND合資企業IM Flash Technologies (IMFT) 製造。該技術的優點包括:

較傳統NAND快5倍,可大幅減少運算、視訊、攝影與其他運算應用的分部(fraction)傳輸時間。 

採用新ONFI 2.0規格,以及更高時脈速度的四階段(plane)架構,因此資料讀取速度高達每秒200萬位元組(MB/s),寫入速度達100 MB/s。 

相較之下,傳統單層次單元NAND的資料讀取速度僅有40 MB/s,寫入速度還不到20 MB/s。 
◆  ◆  ◆  ◆  ◆

兆級運算(TERA-SCALE)技術:

「速度為27Gb/s的Forwarded-Clock輸入/輸出接收器(I/O Receiver),採用以45奈米CMOS製程的注入鎖定式LC數位控制振盪器(Injection-Locked LC-DCO)」


兆級運算技術是英特爾對未來平台所規畫的願景,其具有10至100個核心,共享記憶體連結、其他插座與周邊連接。為了支援資料密集的新興應用,輸入/輸出頻寬必須擴充至100Gbps以上,這意味著各通道必須大於10Gbps。如要擴充輸入/輸出通道的速度,就必須以精確時脈來排定資料傳輸與接收的時間,會消耗大量電力、濾波零組件會占用很大的空間,而且也需要複雜的電路來減少雜訊。

45奈米測試晶片使用新技術,利用forwarded clock訊號(以獨立於資料的通道傳送時脈),以更少更簡單的電路在接收器端排定接收資料時間。它不需使用大型濾波器零組件,但可以過濾高頻時基誤差(jitter)。從技術上來看是不需要完整的鎖相回路(PLL) – 僅需PLL的電壓控制振盪器(VCO)部分 – 仰賴這種較簡單的電路可減少耗電並提升效能。測試晶片顯示下列結果: 

傳輸速度極高 – 每條資料線(data line)連結速度高達 27Gb/s

電源效率是所有速度超過 20Gb/s 輸入/輸出接收器中最高的:1.6mW/Gb/s。 
◆  ◆  ◆  ◆  ◆

「具備電源效率,以及預防亞穩性(Metastability)、定時誤差偵測(timing-error detection)與指令重新執行基礎的復原電路(Instructions-Replay-Based Recovery circuit),其具有動態變化承受能力(Dynamic-Variation Tolerance)」 


為了打造兆級運算效能水準的處理器,必須有極高的效率,並具備將每瓦效能最大化的能力。當前處理器效能與電源效率受限於架構無法承受電路層級的定時誤差。雖然此類誤差可能為時甚短或很少發生,但為了確保正確運作,必須減少最高速度與增加最低電壓,此項安全考量因素被稱為「安全頻寬」(guard band)。

英特爾研究人員展示了一款具有迅速回復電路(resilient circuit)的測試晶片,可偵測並修正定時誤差,無需採用安全頻寬。這款測試晶片的結果顯示,它是有史以來耗電最低、速度最快的錯誤偵測序列電路(針對已公開發表的電路而言)。這些技術可將同樣優點帶給未來的處理器。本測試晶片顯示,這些電路可達到: 
本晶片「超頻」(保持電壓恆定下)時,可將效能提升32%。 

降低電壓(保持效能恆定下)可節省33%的用電。 
(或是)同時調整兩種設定,以達到兩者調整的對應結果。 
◆  ◆  ◆  ◆  ◆

「採用65奈米CMOS製作的320mV 56μW 411GOPS/W超低電壓動作預測加速器(Motion Estimation Accelerator)」 


為了提供最佳每瓦效能給高效能與微型移動應用,未來晶片中的部分電晶體可能用以專門執行常見的加速作業,像是高畫質(HD)視訊處理。這些加速器係針對特定任務設計,但可改善每瓦效能達5至10倍。大多數視訊壓縮技術都使用「動作預測」(motion estimation),確認相同物件從一個畫面切換到下一個時,有那些影像資料是多餘的。這個工作占用了視訊壓縮處理的60%至80%。如果提供加速功能,就可在小型裝置上執行HD壓縮,或加速在較大型系統上執行壓縮的速度。 

英特爾研究人員展示了一款視訊動作預測加速器,各方面效能都有所改善,其運作電壓非常低,遠低於目前市面上的大多數電路。如結合多個加速器,就可在移動裝置上執行視訊編碼,而且耗電量超低。該測試晶片展現了: 

輸出處理能力為已知目前最佳加速器的10倍(執行3階段搜尋演算法情形下)。 
可調整電壓與效能,針對特定任務將電源效率最佳化。 
可以低於一般最低電壓運作(即「次臨界電壓(sub-threshold)」),低達0.22 V。 
0.3V 超低電壓,讓電源效率改善達10倍 (411GOPS/W)。
◆  ◆  ◆  ◆  ◆

「採65奈米邏輯製程的2GHz 2Mb 2T增益單元記憶體巨集(Gain-Cell Memory Macro),頻寬達 128GB/s」 


在分析未來兆級運算應用後發現,在多個核心上執行多執行緒工作將顯著增加對記憶體頻寬的需求。晶片內建SRAM記憶體雖然讓執行速度很快,但依其所需的晶片面積而言,其成本相當高;比作為主記憶體用途的DRAM密度高得多,但速度也慢得多。由於製程不同,它也無法整合至微處理器當中。但它仍可透過立體堆疊(3-D stacking)方式密切整合。但即使如此,其速度還是不及晶片內建的記憶體。

本論文展示一種新款整合式DRAM記憶體,可採用標準微處理器製程。因此晶片設計人員可在晶片上提供更多高速記憶體,以提升未來應用程式效能。和其他動態記憶體一樣,這種記憶體必須被定期「更新」,但能提供下列優點: 
記憶體密度達晶片內建SRAM的2倍。 

速度遠超過DRAM:在時脈為2GHz時的執行速度高達128GB/s。
◆  ◆  ◆  ◆  ◆

製程技術 

「45奈米邏輯技術,採用high-k與金屬閘極電晶體、應變矽(Strained Silicon)、9層銅內部連接層、193奈米乾式圖案轉移(Dry Patterning)、為100%無鉛1封裝」 

本論文將描述英特爾突破性的45奈米製程技術,率先使用high-k金屬閘極電晶體。新閘級堆疊結合強化後的第三代應變矽,製造N型(n-type)金屬氧化物半導體(NMOS)與P型(p-type)金屬氧化物半導體(PMOS)電晶體,驅動電流為有史以來最高。和65奈米製程相比,邏輯閘延遲的改善幅度達20%以上。這種技術已經催生多款可運作的微處理器,也進入量產階段。英特爾最近推出首批以其high-k金屬閘極電晶體技術為基礎的45奈米處理器。 

本論文將強調該科技另一項創舉:以長方形接點取代方形接點,改善效能與局部布線能力,進而改善布線密度。

除此之外,本論文也將討論達成密度擴展的關鍵設計規則。這種技術使用45奈米世代最小電晶體間距(pitch),提供更佳的電晶體封裝密度,與僅有0.346μm2的小靜態隨機存取記憶體(SRAM)單元。它以小電晶體間距達成電晶體效能,顯示效能與密度間並沒有先前認為根本上的衝突情形。

該製程有9層銅內部連接層,在各層間大量應用low-k夾層電介質,改善耗電與效能,並採用了無鉛封裝。

該製程首度整合厚式(very thick)銅電源重分派內部連接層(copper power redistribution interconnect layer),並採用聚合物(polymer)夾層電介質(ILD)。 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11