美國的一項研究項目旨在培育一個能以即插即用的“小芯片(chiplet)”來設計半導體的生態系統;而在此同時,英特爾(Intel)和賽靈思(Xilinx)等廠商則是使用專有封裝技術,來讓自己的FPGA產品與競爭產品有所差異化。

在未來八個月,美國國防部高等研究計劃署(DARPA)的“CHIPS”(Common Heterogeneous Integration and Intellectual Property Reuse
Strategies)項目,期望能定義與測試開放芯片接口(open chip interfaces),并在三年內讓許多公司運用該鏈接接口來打造各種復雜的零組件。

英特爾已經參與此項項目,其他廠商預計也會馬上跟進;這位x86架構的巨擘正在內部爭論是否要公開部份的嵌入式多芯片互連橋接技術(embedded multi-die interconnect bridge,EMIB),而在8月下旬于美國硅谷舉行的年度Hot Chips大會上,英特爾公布了目前EMIB技術的大部分細節。

Xilinx為CCIX (Cache Coherent Interconnect for Accelerators)互連架構的領導者,該公司的一些高階主管表達了對于該DARPA項目的興趣,并宣 布其第四代FPGA使用臺積電(TSMC)專有的CoWoS 2.5D封裝技術。然而究竟哪一種方式能為主流半導體設計降低成本、帶來高帶寬連接,至今尚不明朗 。2070904-kiri-1英特爾將EMIB (中間)定位為電路板與裸晶之間的連接技術 (來源:Intel)

使用有機基板(organic substrate)的多芯片模塊(MCM)已經行之有年,除了相對較低密度的問題,有些供貨商正在想辦法降低成本。臺積電率先推出 了一種扇出型(fan out)晶圓級封裝,用來封裝蘋果(Apple)最新iPhone手機中的應用處理器及其內存,該技術提供比多芯片模塊技術更大的密度, 但用來連結處理器仍不夠力。

高階的AMD與Nvidia繪圖芯片已經和Xilinx一樣,使用像是CoWoS的2.5D技術,將處理器與內存堆棧鏈接在一起;不過一位曾拒絕在Xbox上使用此技術的微軟(Microsoft)資深工程師提到,目前這些技術對于消費性電子產品來說仍太過昂貴。

如同微軟,AMD的Epyc服務器處理器不考慮采用相對昂貴的2.5D 堆棧技術,此處理器是由有機基板上的四顆裸晶(die)所組成。在Hot Chip大會上介紹該芯片的AMD代表Kevin Lepa表示:“較傳統的多芯片模塊是較為人知的技術,成本更低…某些方面(效能)會有所犧牲,但我們認為這是可以接受的。”

一些人希望DARPA的研發項目能盡速解決復雜的技術與商業瓶頸,Xilinx的一位資深架構師即表示:“我們希望小芯片能變成更像是IP。”

在2014年,英特爾首先將其EMIB技術形容為功能媲美2.5D堆棧技術、但成本更低的方案,某部分是因為它只使用一部份的硅中介層(silicon-interposer)來連接任何尺寸的裸晶兩端。Altera在被英特爾并購前嘗試過該技術,其現在出貨的高階Stratix FPGA使用EMIB來鏈接DRAM堆棧與收發器 。

EMIB接口與CCIX進展

在Hot Chips大會上,英特爾介紹了兩種采用EMIB技術的接口,其一名為UIB,是以一種若非Samsung就是SK Hynix使用的DRAM堆棧Jedec鏈接標準為基 礎;另外一個稱作AIB,是英特爾為收發器開發的專有界面,之后廣泛應用于模擬、RF與其他組件。2070904-kiri-2英特爾的AIB接口內部架構 (來源:Intel)

對于EMIB來說,這兩者都是相對較簡單的平行I/O電路,英特爾相信比起串行鏈接接口,可以有較低的延遲性與較好的延展擴充性(Scaling)。到目前為止,采用上述兩種接口的模塊已經在英特爾的3座晶圓廠以6種制程節點進行過設計。

英特爾還未決定是否將公布AIB,也就是將之轉為開放原始碼;該接口在物理層的可編程速度可高達2 Gbps,即在一個EMIB連結上支持2萬個連接。

英特爾FPGA部門的高級架構師Sergey Shuarayev表示:“純粹就帶寬來說是很大的,而且我們可以建立龐大的系統──比光罩更大;”他表示EMIB元件帶寬會比2.5D堆棧大6倍。此外密度也會提高,新一代的EMIB技術將支持35微米(micron)晶圓凸塊,現今在實驗室中使用10mm連接的情況下,密度比目前使用的55mm凸塊高出2.5倍。

Shuarayev認為EMIB技術能被用以鏈接FPGA與CPU、數據轉換器與光學零組件,比起2.5D堆棧技術來說,成本更低、良率更高;他補充說明,部分原因是它能從FPGA中移除難以處理的模擬區塊。

Xilinx則在Hot Chips大會上推出VU3xP,為第四代的芯片堆棧方案,包含最多3個16奈米FPGAs與兩個DRAM堆棧;估計明年4月前可提供樣品。這也是第一款使用CCIX接口的芯片方案,支持四個鏈接主處理器與加速器的一致性鏈接(coherent links)。

基于PCIe架構的CCIX最初運作速度為25 Gbits/s,有33家公司支持此接口,目前IP方面由Cadence與Synopsys提供;Xilinx副總裁Gaurav Singh表示: “有許多處理器正導入此標準。”此外,Xilinx采用堅固的AXI開關,自行設計了DRAM堆棧區的連接(如下)方式,與各種內存控制器互通。2070904-kiri-3Xilinx以16個256位、運作速度達到450MHz的AXI端口鏈接8個內存控制器,將其最新的FPGA連接到DRAM堆棧 (來源:Xilinx)

英特爾與Xilinx都提到了設計模塊化芯片時所面臨的一些挑戰。CoWoS制程要求芯片的最大接面溫度維持在攝氏95度以下;Singh提到,DRAM堆棧每減少一層,溫度大約會提高兩度;Shumarayev則表示,英特爾要求芯片供貨商為堆棧出貨的裸晶都是KGD (known good die),因為封裝壞晶粒的成本問題一直是多芯片封裝市場的困擾。