【導讀】計算機主要組件的封裝幾十年來(lái)相對穩定,但現在正經(jīng)歷一場(chǎng)革命。例如,在內存和中央處理器(CPU)之間已經(jīng)達到散熱和帶寬極限的情況下,業(yè)界正在尋求新的方案來(lái)提高性能并降低功耗。最近兩年,引領(lǐng)這一追求的是混合內存立方體(HMC)構想...
計算機主要組件的封裝幾十年來(lái)相對穩定,但現在正經(jīng)歷一場(chǎng)革命。例如,在內存和中央處理器(CPU)之間已經(jīng)達到散熱和帶寬極限的情況下,業(yè)界正在尋求新的方案來(lái)提高性能并降低功耗。
最近兩年,引領(lǐng)這一追求的是混合內存立方體(HMC)構想(圖1)。這是美光科技(Micron)提出的概念,業(yè)已被龐大的產(chǎn)業(yè)領(lǐng)導者聯(lián)盟——混合內存立方體聯(lián)盟(Hybrid Memory Cube Consortium)所采用。

圖1 混合內存立方體。
這一概念基于用一組高速串行連接取代傳統的DRAM總線(xiàn),同時(shí)使內存和運算芯片在物理上非常接近,以便去掉驅動(dòng)DRAM總線(xiàn)的功率晶體管。由此產(chǎn)生的模塊可將內存的功耗降低70%~90%,目前性能可達160GB/s水平,這是兩項令人矚目的進(jìn)展。未來(lái)的配置目標是超過(guò)上述指針的兩倍,最終是使用多個(gè)內存模塊實(shí)現1TB/s的吞吐率。
硅穿孔(TSV)是使能技術(shù)(enabling technology)。透過(guò)在邏輯模塊上堆棧內存裸片并使用TSV將頂層連接到邏輯電路,使用大量的并行鏈路,可實(shí)現很小的面積占用。今天的產(chǎn)品通常有四個(gè)堆棧裸片,所以每個(gè)模塊的容量限制在16GB。
邏輯層可以是CPU、繪圖處理器(GPU)、現場(chǎng)可編程門(mén)陣列(FPGA)或只是控制邏輯,似乎所有這些選項都開(kāi)始出現。來(lái)看一些應用,CPU選項看來(lái)顯而易見(jiàn),在CPU之上構建DRAM得到的稍厚的混合芯片,應用在智能型手機和平板計算機上令人關(guān)注,這是一種節省寶貴空間的方式,但更重要的是節省稀少且缺乏的電能。使用16GB容量的方案,已經(jīng)是個(gè)可行的建議,而更高密度的封裝將擴大到整個(gè)市場(chǎng)。
在服務(wù)器中,更高的帶寬是吸引力所在。目前尚不清楚市場(chǎng)是否會(huì )跟進(jìn)CPU/內存堆棧路徑,或是選擇多個(gè)內存芯片的緊密并列封裝,后者可將帶寬提升到500+GB/s范圍并增加HMC容量。舉例來(lái)說(shuō),英特爾(Intel)的Knights Landing Phi芯片旨在使用堆棧內存結構(圖2)。

圖2 英特爾Knights Landing代號Xeon Phi處理器。(圖片來(lái)源:英特爾)
AMD和Nvidia這兩家GPU制造商選擇了采用多通道并行總線(xiàn)不同的模塊化方法(高帶寬內存,HBM)。HMB比RAM總線(xiàn)寬得多,可提供更高帶寬。DRAM裸片堆棧和與GPU緊密耦合旨在解決性能和功耗問(wèn)題,將模塊方法應用到GPU引發(fā)了與服務(wù)器相同的封裝問(wèn)題,因此解決方案的采用可能取決于GPU產(chǎn)品是針對消費類(lèi)還是針對人工智能(AI)市場(chǎng)。
在服務(wù)器系統中用作加速器的FPGA,其本身的故事仍在不斷演繹,盡管像Altera/Intel和賽靈思(Xilinx)這樣的公司已經(jīng)為HMC提供了原型開(kāi)發(fā)板。
這種模塊化方法透露出主要的管道含義。然主導力的天平明顯地倒向內存芯片制造商(如美光),而對沒(méi)代工廠(chǎng)的DIMM組裝廠(chǎng)商不利,但這并非一蹴可幾,因為系統結構和芯片生態(tài)系統還沒(méi)有發(fā)展到可正確使用模塊化方案??赡艿那闆r是,智能型手機的封閉性將使其成為更容易滲透的市場(chǎng)。
服務(wù)器市場(chǎng)轉向模塊化方法,很可能會(huì )因服務(wù)器核心中以結構為中心架構的興起而變得復雜。諸如Gen-Z之類(lèi)的方法使得串行內存連接成為將CPU、GPU、FPGA和外部通訊連接在一起的RDMA結構的焦點(diǎn),它使所有服務(wù)器單元之間直接使用公共內存,以及共享內存和接口的跨集群成為可能。未來(lái)AMD和Nvidia的計劃將致力于內存與GPU之間更緊密的耦合,以使當前架構將大量數據從CPU內存傳輸到GPU內存的問(wèn)題不再困難。
主導力的天平倒向芯片制造商不僅傷及DIMM制造商,還同樣殃及插卡制造商。服務(wù)器主板將可能具有針對適配驅動(dòng)器或LAN的SoC方案的ZIF插槽,以及用于內存和計算組件的更多插槽。
但供貨商陣營(yíng)也并非一團和氣。英特爾在談?wù)撆c業(yè)內其他家不同的途徑。業(yè)內有討論可更好填補Optane NVDIMM和L3高速緩存之間性能差距的高帶寬、低延遲(HBLL)DIMM方案,而不是用于服務(wù)器的HMC。
最后的難題是,雖然這些新的內存速度非???,但容量有限,目前為16GB或更小。雖然這與DIMM類(lèi)似,但其架構將當今的許多模塊排除在外。隨著(zhù)對TB容量?jì)却娴男枨螅?該問(wèn)題尚沒(méi)有得體的對策。英特爾在NVDIMM中內置傲騰(Optane)的HBLL方法很可能是條解決之道。