在過去幾年中,先進(jìn)封裝已成為半導(dǎo)體越來越普遍的主題。在這個(gè)由多個(gè)部分組成的系列中,SemiAnalysis將打破大趨勢。我們將深入研究實(shí)現(xiàn)先進(jìn)封裝的技術(shù),例如高精度倒裝芯片、熱壓鍵合 (TCB) 和各種類型的混合鍵合 (HB)。
本次深入探討將包括各種代工廠、IDM、OSAT和無晶圓廠設(shè)計(jì)公司的使用狀況、設(shè)備采購以及技術(shù)選擇的差異。它還將包含 Besi Semiconductor、ASM Pacific、Kulicke and Soffa、EV Group、Suss Microtec、SET、Shinkawa、Shibaura和 Xperi 等公司對設(shè)備和供應(yīng)鏈的評論。
首先讓我們討論一下對先進(jìn)封裝的需求。摩爾定律以迅猛的速度發(fā)展。自臺(tái)積電 32nm 失誤以來,直到目前的 5nm 工藝節(jié)點(diǎn),臺(tái)積電的晶體管密度每年增長 2 倍。盡管如此,真實(shí)芯片的密度每 3 年增長約 2 倍。這種較慢的速度部分是由于 SRAM 縮放、功率傳輸和熱密度的消亡,但大多數(shù)這些問題都與數(shù)據(jù)的輸入和輸出有關(guān)。
芯片上數(shù)據(jù)的輸入和輸出 (IO) 是計(jì)算的命脈。將內(nèi)存置于芯片上有助于通過減少通信開銷來減少 IO 需求,但歸根結(jié)底,這是一種有限的擴(kuò)展途徑。處理器必須與外部世界進(jìn)行交易以發(fā)送和接收數(shù)據(jù)。摩爾定律使業(yè)界的晶體管密度大約每 2 年增加 2 倍,但 IO 數(shù)據(jù)的速率每 4 年才增加 2 倍。幾十年來,晶體管密度與 IO 數(shù)據(jù)速率的這種差異出現(xiàn)了巨大差異。共同封裝的光學(xué)器件只是解決這個(gè)問題的一種方法,它并不是單獨(dú)出現(xiàn)的。
從根本上說,芯片需要容納更多的通信或 IO 點(diǎn)才能跟上。不幸的是,這方面的最后一個(gè)主要步驟功能增加是在 90 年代轉(zhuǎn)向倒裝芯片封裝。
傳統(tǒng)的倒裝芯片封裝的凸點(diǎn)間距在 150 微米到 200 微米之間。這意味著每個(gè) IO 單元在裸片的底側(cè)相距 150 到 200 微米。臺(tái)積電 N7將凸點(diǎn)間距降低到 130 微米,英特爾的 10nm 將凸點(diǎn)間距降低到 100 微米,這些進(jìn)步被稱為細(xì)間距倒裝芯片。不要小看這些進(jìn)步,因?yàn)樗鼈儤O大地促進(jìn)了更好的處理器,但 2000 年的封裝技術(shù)與 2021 年的封裝技術(shù)基本相同。
2000年的250mm²的芯片與2022年的250mm²芯片在晶體管數(shù)量、性能和成本方面有著難以置信的不同。摩爾定律每 2 年翻一番,表示晶體管數(shù)量增加了 2000 倍以上。顯然,現(xiàn)實(shí)并不那么有利,但晶體管仍然增加了幾個(gè)數(shù)量級。在硬幣的另一面,封裝沒有享受同樣水平的增長。
在臺(tái)積電的 N7 節(jié)點(diǎn)上,AMD 的凸塊間距從約 200 微米變?yōu)?130 微米,IO 僅增加了 2.35 倍。如前所述,英特爾在 10 納米工藝上從200 微米的凸點(diǎn)間距變?yōu)?100 微米,從而實(shí)現(xiàn)了更大的縮放。這仍然只會(huì)使 IO 增加 4 倍。2.35倍或4倍的增加是相對于晶體管數(shù)量增加的舍入誤差。
這帶來了pad(硅片的管腳)受限設(shè)計(jì)的概念。將舊設(shè)計(jì)轉(zhuǎn)移到新工藝節(jié)點(diǎn)時(shí),設(shè)計(jì)本身可能會(huì)大幅縮小,但 IO 需求會(huì)阻止芯片尺寸縮小多少。由于需要 IO,裸片尺寸保持較大且留有空白空間。這些情況稱為pad limited,并且非常頻繁。
順便說一句,這不僅與將使用先進(jìn)封裝的前沿有關(guān),而且與圍繞汽車芯片和一般半導(dǎo)體短缺的討論有關(guān)。Intel 的首席執(zhí)行官 Pat Gelsinger 認(rèn)為,這些短缺的公司應(yīng)該轉(zhuǎn)向 Intel 16nm 代工服務(wù)。
Pat Gelsinger表示,今天,我們宣布在英特爾 16 和愛爾蘭工廠的其他節(jié)點(diǎn)上提供歐洲代工服務(wù),我們相信這有機(jī)會(huì)幫助加速結(jié)束供應(yīng)短缺,我們正在與汽車和其他行業(yè)合作幫助建立這些能力。但我也想說有些人可能會(huì)爭辯說,好吧,讓我們在舊節(jié)點(diǎn)上構(gòu)建大部分汽車芯片。舊節(jié)點(diǎn)不需要一些舊晶圓廠嗎?我們是想投資過去還是想投資未來?
一個(gè)新的晶圓廠需要 4 到 5
年的時(shí)間才能建成并具有生產(chǎn)價(jià)值。不是解決今天的危機(jī),投資于未來,不要選擇向后投資。相反,我們應(yīng)該將所有設(shè)計(jì)遷移到新的現(xiàn)代節(jié)點(diǎn),為未來增加供應(yīng)和靈活性做好準(zhǔn)備。
Intel的問題在于,當(dāng)從古老的節(jié)點(diǎn)轉(zhuǎn)移到相對現(xiàn)代的節(jié)點(diǎn)時(shí),這些設(shè)計(jì)將受到pad限制。由于每 mm²的成本較高,單位成本經(jīng)濟(jì)學(xué)在這里不起作用,因?yàn)橛捎趐ad有限,芯片面積不能很好地縮放。除了這些成本之外,由于必須在較新的節(jié)點(diǎn)上重新設(shè)計(jì)舊芯片和整個(gè)重新認(rèn)證過程,因此一次性成本也很高。將舊芯片移到新節(jié)點(diǎn)的解決方案是不可行的。
那么如何增加 IO 計(jì)數(shù)呢?
一種途徑是尋找使芯片更大的方法。面積越大,IO的空間就越大。這不是最佳途徑,但設(shè)計(jì)人員會(huì)經(jīng)常增加芯片上的內(nèi)存,以便在芯片上存儲(chǔ)更多數(shù)據(jù)。這反過來又在一定程度上減少了 IO 需求。AMD 最近的架構(gòu)就是一個(gè)很好的例子,因?yàn)樗鼈冊?CPU 和 GPU 上都有巨大的緩存。
AMD 將其命名為 InfinityCache(無線緩存)。解決方案是通過提供大量的片上 SRAM 來存儲(chǔ)處理器中與計(jì)算最相關(guān)的數(shù)據(jù),從而降低內(nèi)存帶寬要求。在 GPU 領(lǐng)域,AMD 明確表示他們能夠通過添加無限緩存將 GDDR6 總線大小從 384 位減少到 256 位。蘋果在這方面也很積極,在他們內(nèi)部設(shè)計(jì)的處理器上塞滿了大量的緩存。這些設(shè)計(jì)選擇的一個(gè)組成部分與功率有關(guān),但很大一部分也是由于pad限制。
另一種途徑是添加各種專用電路以提高芯片效率。我們在大量的異構(gòu)計(jì)算中看到了這一點(diǎn)。回到我們的Apple A15 芯片分析,令人驚訝的是 CPU 或 GPU 的專用區(qū)域如此之少。這是人們談?wù)撟疃嗟膬蓚€(gè)方面。Apple 沒有專注于這些營銷方面,而是將大量區(qū)域用于其他功能。雖然沒有標(biāo)注,但右下角主要是圖像信號處理器。這塊巨大的部分正在做與拍照和視頻相關(guān)的計(jì)算。還有另一個(gè)未標(biāo)記的塊與媒體編碼和解碼相關(guān)的計(jì)算有關(guān)。在 SoC 周圍,可以找到這些相當(dāng)小的統(tǒng)一矩形,它們是 SRAM 緩存,可將更多數(shù)據(jù)保存在芯片上,而不必進(jìn)入內(nèi)存。
這些工作負(fù)載不能在傳統(tǒng)CPU上運(yùn)行。AI的模型越來越大,F(xiàn)acebook 的深度學(xué)習(xí)推薦系統(tǒng)模型有超過12萬億個(gè)參數(shù)。不斷膨脹的模型尺寸致力于讓你在應(yīng)用上停留更長時(shí)間并點(diǎn)擊更多廣告。谷歌開發(fā)了自己的芯片,用于人工智能模型的訓(xùn)練和推理,稱為 TPU。隨著 VCU(一種新型處理器)的出現(xiàn),他們擴(kuò)大了在芯片工作的研究,如果專用于同一任務(wù),它能夠取代 1000 萬個(gè) CPU。
亞馬遜有定制的網(wǎng)絡(luò)芯片,也運(yùn)行他們的管理程序和管理堆棧。他們擁有自己的芯片,專門用于AI 訓(xùn)練、AI 推理、存儲(chǔ)控制和 CPU。當(dāng)你查看 Marvell 和 Broadcom ASIC 服務(wù)的重點(diǎn)時(shí),就會(huì)發(fā)現(xiàn),硬件設(shè)計(jì)和架構(gòu)的分散性只會(huì)增加。
就連英特爾,這家認(rèn)為每個(gè)工作負(fù)載都應(yīng)該在 CPU 上運(yùn)行的公司,也認(rèn)識到唯一的前進(jìn)道路是異構(gòu)設(shè)計(jì)。與針對每項(xiàng)任務(wù)的通用 CPU 硬件不同,該行業(yè)正在采用常見的工作負(fù)載并專門為它們構(gòu)建芯片。這使架構(gòu)師能夠獲得更高的每單位硅性能。
長話短說,除了 CPU 之外,專用集成電路的異構(gòu)集成是至高無上的。不過,更多內(nèi)存和更多異構(gòu)計(jì)算并不是萬能的。雖然通過增加內(nèi)存和異構(gòu)計(jì)算來增加芯片尺寸對于消除pad限制和提高能源效率非常有用,但這些都是要花錢的。很多錢。
更多的芯片面積意味著更多的引腳、更多的集成功能,但這也是成本失控的絕妙方法。并且芯片尺寸已經(jīng)達(dá)到極限。例如,看看英偉達(dá)或英特爾的數(shù)據(jù)中心陣容。兩者都接近“標(biāo)線限制”超過 5 年。即使他們愿意,他們也無法繼續(xù)制造更大的芯片。芯片收縮已經(jīng)大幅放緩,助長了這個(gè)問題。
因此,收縮已經(jīng)放緩,芯片尺寸無法增長得更大,設(shè)計(jì)也受到pad的限制,這些是唯一的問題嗎?
不幸的是,不是。硅單元經(jīng)濟(jì)學(xué)也遇到了障礙。半導(dǎo)體行業(yè)及其下游企業(yè)單槍匹馬地推動(dòng)了整個(gè)經(jīng)濟(jì)的通縮環(huán)境,抵消了其他地方的通脹行動(dòng)。沒有它,80 年代以來的美國和歐洲將經(jīng)歷無休止的滯脹。不過,這種變革性的通貨緊縮力量正在遇到障礙。半導(dǎo)體單位經(jīng)濟(jì)沒有改善。事實(shí)上,將晶體管縮小到更小,它們甚至變得更糟。制造大芯片不僅昂貴,而且比之前的一代更昂貴。
這張來自 AMD 的圖表描繪了一幅非常病態(tài)的畫面。雖然每個(gè)節(jié)點(diǎn)的轉(zhuǎn)變并不相同,但很明顯,在 7nm 和 5nm 處,該行業(yè)已經(jīng)達(dá)到了拐點(diǎn)。每產(chǎn)出平方毫米的成本增加幅度不是很小,而是很大。盡管節(jié)點(diǎn)轉(zhuǎn)換帶來了類似的密度增益,或者可能由于 SRAM 縮放速度放緩而更糟,但成本的增加并沒有跟上。與每晶體管成本相關(guān)的趨勢逆轉(zhuǎn)令業(yè)界震驚。這種逆轉(zhuǎn)具有巨大的影響,甚至導(dǎo)致無知的銀行家以此為理由,下調(diào)臺(tái)積電的評級,稱其估值過高。
摩根士丹利認(rèn)為,由于摩爾定律正在放緩,晶體管成本縮放已經(jīng)停止,臺(tái)積電的定價(jià)壓力將減弱。摩根士丹利通過一張可笑的圖表來證明這一點(diǎn),該圖表顯示 5nm 的晶體管成本低于 7nm,這與業(yè)內(nèi)專家形成鮮明對比。隨著 FinFET 節(jié)點(diǎn)的引入,每個(gè)晶體管的成本停滯不前,7nm 完全趨于穩(wěn)定,而 5nm 則比以往任何時(shí)候都高。我們的讀者可以算一算,N7 晶圓約為 9500 美元,N5 晶圓約為16000 美元。蘋果的芯片尺寸幾乎沒有下降,但他們付了錢。
因此,每個(gè)晶體管的成本仍在增加,但對計(jì)算的需求比以往任何時(shí)候都增加。我們轉(zhuǎn)向異構(gòu)架構(gòu)進(jìn)行反擊,但現(xiàn)在芯片設(shè)計(jì)過程要困難得多。該行業(yè)必須依靠許多擁有不同 IP 的團(tuán)隊(duì)按時(shí)交付并將其整合在一起。Synopsys 和 Cadence 等 EDA 供應(yīng)商在協(xié)助方面做得非常出色,但這還不夠。對于沒有超過 1000 萬個(gè)單元用例的任何人來說,一個(gè)可以購買特定應(yīng)用 IP 或芯片并將其集成到硬件設(shè)計(jì)中的開放生態(tài)系統(tǒng)是必要的。即使對于這些公司,小芯片風(fēng)格的系統(tǒng)架構(gòu)也是答案。
隨著我們繼續(xù)收縮,預(yù)期收益率會(huì)緩慢下降。這是一個(gè)合乎邏輯的結(jié)論,因?yàn)槊總€(gè)連續(xù)的節(jié)點(diǎn)都會(huì)增加約 35% 的流程步驟。當(dāng)前沿流程在數(shù)千個(gè)流程步驟中進(jìn)行衡量時(shí),錯(cuò)誤開始迅速堆積。工業(yè)公司喜歡談?wù)摗癝ix Sigma”,但這對半導(dǎo)體制造來說還不夠。讓我們假設(shè)一個(gè)有 2000 個(gè)工藝步驟的過程,每個(gè)步驟的每 cm²缺陷數(shù)為Six Sigma。那么D0(每 cm²缺陷率的行業(yè)術(shù)語)最終將是0.678。芯片越大,出現(xiàn)缺陷的可能性就越大。
如果這個(gè)假設(shè)的過程是構(gòu)建英特爾的高端服務(wù)器 CPU,Ice Lake。這將導(dǎo)致每個(gè)晶片有 4 個(gè)良好的裸片和 76 個(gè)有缺陷的裸片。現(xiàn)在考慮這個(gè)分析是在 cm²水平上完成的,并且在前沿工藝節(jié)點(diǎn)上每 cm²有數(shù)十億個(gè)晶體管。半導(dǎo)體行業(yè)比Six Sigma好得多。
除了尺寸的完美之外,還有什么解決方案?
Chiplets——小芯片!將大籌碼分成許多小籌碼。
AMD 是這方面最受歡迎的例子,但這是整個(gè)行業(yè)的趨勢。AMD 可以設(shè)計(jì) 3 個(gè)芯片,一個(gè)CPU 核心小芯片和 2 個(gè) IO 芯片。這 3 種設(shè)計(jì)覆蓋了很大一部分市場。同時(shí),英特爾設(shè)計(jì)了 2 個(gè) Alder Lake 臺(tái)式機(jī)芯片和 3 個(gè) Ice Lake 服務(wù)器芯片,以服務(wù)于相同的潛在市場。因此,AMD 可以節(jié)省設(shè)計(jì)成本,制造比英特爾更多內(nèi)核的 CPU,并節(jié)省收益成本。
要演示 yield 參數(shù),請參見下表。AMD將 CPU 內(nèi)核拆分為 8 個(gè) CPU 內(nèi)核小芯片。如果良率是 100%,英特爾將能夠以比 AMD 更低的每個(gè) CPU 內(nèi)核的成本制造內(nèi)核。但相反,英特爾必須在每個(gè) CPU 內(nèi)核上花費(fèi)更多,因?yàn)楦蟮男酒懈嗟娜毕荨O卤碛幸恍┟黠@的警告,其中最大的假設(shè)是缺陷芯片的收獲率為 0,并且英特爾和臺(tái)積電具有相同的 D0。這些假設(shè)都不是真的,這個(gè)練習(xí)是為了演示目的。
小芯片(Chiplet)很棒,但它不是孤立的解決方案。我們?nèi)匀挥龅皆S多相同的問題。每個(gè)晶體管的成本仍在上升,設(shè)計(jì)成本飆升,由于需要更多 IO 來與其他芯片接口,小芯片被pad限制。由于 IO 限制,部分芯片無法拆分,因此芯片尺寸仍在達(dá)到峰值。
解決辦法是什么?
先進(jìn)封裝!
這就是我們要注意的地方,一些工具供應(yīng)商將所有倒裝芯片封裝稱為“先進(jìn)封裝”。SemiAnalysis 和大多數(shù)業(yè)內(nèi)下游人士不會(huì)這么說。因此,我們將所有凸點(diǎn)尺寸小于 100 微米的封裝稱為“先進(jìn)”。
最常見的先進(jìn)封裝類別稱為扇出。有些人會(huì)爭辯說它甚至不是先進(jìn)的封裝,但那些人大錯(cuò)特錯(cuò)。以Apple 為例,他們將讓臺(tái)積電采用應(yīng)用處理器芯片,并將其與 90 微米到 60 微米數(shù)量級的更密集凸塊封裝到重組或載體晶圓/面板上。與傳統(tǒng)倒裝芯片封裝相比,凸點(diǎn)密度大約高出 8 倍。
這種重組或載體晶圓/面板然后進(jìn)一步展開 IO,因此得名扇出。然后將扇出封裝連接到主板。硅芯片的設(shè)計(jì)可以減少對pad受限的擔(dān)憂,因?yàn)樯瘸鎏幍膒ad較小。該封裝還可以封裝 DRAM 內(nèi)存、NAND 存儲(chǔ)和 PMIC。集成扇出不僅有利于密度,而且它們還在封裝上保留了大量的芯片間 IO。否則,該 IO 將不得不以更大的IO 間距尺寸通過主板進(jìn)行接口。
集成扇出對于高性能應(yīng)用程序變得越來越普遍,不僅僅是移動(dòng)應(yīng)用程序。增長最快的用例是在十多年來設(shè)計(jì)一直受到限制的事物的網(wǎng)絡(luò)方面。AMD 將在其服務(wù)器 CPU 和 GPU中非常積極地采用扇出。Tesla Dojo 1是集成扇出封裝的另一個(gè)引人注目的例子,但在晶圓級。SemiAnalysis透露,特斯拉將在發(fā)布公告前使用這種包裝類型。
在先進(jìn)封裝中,有 2.5D 和 3D 封裝。2.5D 涉及封裝在其他硅片上的硅片,但較低的硅片專用于布線,沒有有源晶體管。這通常以55 微米到 50 微米的間距完成,因此凸點(diǎn)密度高出約 16 倍。最常見和最高容量的用例是具有 TSMC CoWoS(基板上晶圓上芯片)的 Nvidia 數(shù)據(jù)中心 GPU。臺(tái)積電將有源芯片封裝在只有互連和微凸點(diǎn)的晶圓上。然后使用傳統(tǒng)方法將這疊芯片封裝到基板上。
其他示例基本上包括每個(gè)帶有 HBM 的處理器。HBM 是作為一種階梯函數(shù)增加內(nèi)存帶寬的方法而建立的,這種方法高于傳統(tǒng)形式的 DRAM。它通過使用更寬的內(nèi)存總線來實(shí)現(xiàn)這一點(diǎn)。這些寬總線會(huì)產(chǎn)生與 IO 計(jì)數(shù)相關(guān)的問題,但 HBM 是從頭開始設(shè)計(jì)的,以便在同一包內(nèi)共存。這顛覆了 IO 問題,同時(shí)也允許更緊密的集成。
2.5D 的更多示例包括基于Intel EMIB 的產(chǎn)品、Xilinx FPGA、AMD 最新的數(shù)據(jù)中心 GPU 和Amazon Graviton 3。
3D 封裝是將一個(gè)有源芯片封裝在另一個(gè)有源芯片之上。這最初由英特爾以 55 微米間距的邏輯硅一起發(fā)貨,但批量用例將在 36 微米及以下。臺(tái)積電和 AMD 將推出 17 微米間距的 3D堆疊 V-cache。該技術(shù)從凸塊過渡到硅通孔 (TSV),并且具有更大的擴(kuò)展空間。
其他應(yīng)用,例如索尼制造的 CMOS 圖像傳感器,其間距已經(jīng)達(dá)到 6.3 微米。為了保持比較,36 微米間距的凸點(diǎn)密度高出 31 倍,17 微米間距實(shí)施的銅TSV 的 IO 密度將提高 138 倍,而索尼的6.3微米間距的CMOS圖像傳感器的IO密度比標(biāo)準(zhǔn)翻轉(zhuǎn)芯片高567倍。
這只是對主要封裝類型的基本解釋,但我們將深入研究本系列中的不同類型的封裝。對未來的封裝類型、工具以及工具供應(yīng)商有很多不同的賭注。設(shè)備和 IP 方面比人們乍一看想象的要興奮得多,但在我們深入研究之前,需要先解釋基礎(chǔ)知識。
對于即將到來的創(chuàng)新海洋,有很多可投資的想法和角度。摩爾定律的放緩正在推動(dòng)根本性的變化。我們正處于先進(jìn)封裝推動(dòng)的半導(dǎo)體設(shè)計(jì)復(fù)興之中。