【導讀】近年來(lái),人工智能應用正經(jīng)歷一輪快速的發(fā)展與普及,而以ChatGPT等先進(jìn)的大模型技術(shù)在此過(guò)程中起到了關(guān)鍵作用。這些模型對計算能力的需求不斷攀升,催生了AI芯片設計的不斷革新,進(jìn)入了大算力時(shí)代。
近年來(lái),人工智能應用正經(jīng)歷一輪快速的發(fā)展與普及,而以ChatGPT等先進(jìn)的大模型技術(shù)在此過(guò)程中起到了關(guān)鍵作用。這些模型對計算能力的需求不斷攀升,催生了AI芯片設計的不斷革新,進(jìn)入了大算力時(shí)代。
目前,主流AI芯片的架構仍然沿用了傳統的馮·諾依曼模型,這一設計將計算單元與數據存儲分離。在這種架構下,處理器需要從內存中讀取數據,執行計算任務(wù),然后將結果寫(xiě)回內存。盡管AI芯片的算力在不斷提升,但僅僅擁有強大的數據計算能力并不足夠。當數據傳輸速度無(wú)法跟上計算速度時(shí),數據傳輸時(shí)間將遠超過(guò)計算時(shí)間。
以Transformer架構為基礎的AI大模型導致了模型參數量激增,短短兩年間模型大小擴大了驚人的410倍,運算量更是激增了高達750倍。盡管硬件的峰值計算能力在過(guò)去20年中提升了驚人的60,000倍,但DRAM帶寬的增長(cháng)卻相對滯后,僅提高了100倍。計算能力與帶寬能力之間的巨大差距導致了內存容量和數據傳輸速度難以跟上AI硬件的計算速度,這已成為限制AI芯片性能發(fā)揮的主要瓶頸,通常被稱(chēng)為“內存墻”問(wèn)題。
內存墻的應對方法
針對內存墻問(wèn)題,研究人員正積極探索多種解決方案,主要可分為以下三個(gè)研究方向:
算法優(yōu)化:重新審視網(wǎng)絡(luò )模型設計,致力于優(yōu)化算法實(shí)現,以減少對高速數據傳輸的依賴(lài)。這一方向旨在從根本上降低數據傳輸需求,提升算法效率,從而打破內存墻的限制。
模型壓縮:通過(guò)降低模型精度(如量化)或去除冗余參數(如剪枝)來(lái)壓縮推理模型。這種方法可以顯著(zhù)減少模型大小,降低內存占用,從而減輕內存墻帶來(lái)的壓力。
AI芯片架構設計:設計高效的AI芯片架構,以?xún)?yōu)化數據流和計算流程。通過(guò)硬件層面的創(chuàng )新,減少數據搬運和計算量,提高整體系統效率。
算法的優(yōu)化與模型的壓縮是軟件研究人員追求的重要方向。在A(yíng)I芯片架構設計領(lǐng)域, 各大AI芯片公司也開(kāi)始優(yōu)化芯片架構, 以實(shí)現更為高效的內存傳輸。安霸同樣提出了其專(zhuān)有的解決方案。
CV3系列芯片如何打破內存墻
2015年, 安霸收購了自動(dòng)駕駛算法公司VisLab, 開(kāi)始研究自動(dòng)駕駛需要怎樣的芯片。 2017年,安霸推出第一代CVflow架構芯片CV1, 用于加速AI視覺(jué)計算。2018年開(kāi)始逐步推出并量產(chǎn)專(zhuān)門(mén)針對車(chē)載輔助駕駛市場(chǎng)的第二代CVflow架構芯片CV2系列。 2019年,自動(dòng)駕駛技術(shù)的突飛猛進(jìn),使得汽車(chē)行業(yè)對芯片算力的需求急劇增長(cháng),標志著(zhù)大算力時(shí)代的來(lái)臨。在這樣的技術(shù)背景下,安霸前瞻性地啟動(dòng)了CV3系列大算力芯片的設計工作,旨在為自動(dòng)駕駛場(chǎng)景提供強大的計算能力。經(jīng)過(guò)三年的精心打磨與架構設計, 2022年, CV3架構的第一顆芯片CV3-HD成功點(diǎn)亮, 其最高算力達到了1500 eTOPS(等效算力),而功耗僅為50瓦,展示出了卓越的計算性能與能耗比。 2023年, 首個(gè)面向量產(chǎn)智駕域控制器的芯片CV3-AD685順利點(diǎn)亮并開(kāi)始提供樣片, 其算力達到750 eTOPS(等效算力)。2024年1月,安霸再次推出了CV3-AD 汽車(chē)智駕域控制器芯片的最新成員:CV3-AD635 和 CV3-AD655。至此,CV3-AD 系列芯片已經(jīng)實(shí)現了從主流到中、高端乘用車(chē)市場(chǎng)高級輔助駕駛與自動(dòng)駕駛解決方案的完整覆蓋。
在深入洞察自動(dòng)駕駛場(chǎng)景的基礎上, 安霸的CV3系列芯片在設計之初就敏銳地預見(jiàn)到大算力時(shí)代所帶來(lái)內存帶寬挑戰。為了突破內存瓶頸,CV3在內存控制器上采用了先進(jìn)的LPDDR5技術(shù),每位DRAM的數據傳輸速率高達8Gb/s。針對不同應用場(chǎng)景的算力需求,設計了64位、128位和256位的內存位寬,從而確保在各種計算場(chǎng)景下都能提供足夠的數據傳輸帶寬。
在A(yíng)I加速器的架構設計上,CV3系列芯片推出了安霸特有的第三代CVflow架構。這一架構賦予了CV3卓越的算力性能和優(yōu)異的能效比。如圖1所示,CVflow的總體架構展示了其數據流和計算單元的組織結構。
圖1 CVflow架構圖
具體來(lái)說(shuō), CV3的高算力與低功耗得益于以下幾個(gè)精心設計的架構特點(diǎn)。
·Partial buffer架構
盡管許多AI芯片采用增大緩存的方式來(lái)減少DRAM訪(fǎng)問(wèn),但緩存系統存在幾個(gè)顯著(zhù)問(wèn)題:
設計復雜性與成本:緩存系統的設計相對復雜,相較于同等容量的SRAM,它需要占據更大的芯片面積。這不僅增加了芯片的成本,還可能導致功耗上升。
軟件優(yōu)化需求:為了充分利用緩存系統,軟件算法需要針對其進(jìn)行專(zhuān)門(mén)的優(yōu)化,以提高緩存命中率。這增加了軟件開(kāi)發(fā)的復雜性和工作量。
算力浪費:緩存系統通常遵循“使用時(shí)才加載”的策略,這導致計算單元在等待數據加載完成期間無(wú)法進(jìn)行有效計算,從而造成算力的浪費。算力的有效利用率在很大程度上依賴(lài)于緩存命中率。
性能不穩定:在復雜的多核多線(xiàn)程環(huán)境中,緩存命中率與系統的負載密切相關(guān)。隨著(zhù)負載的變化,緩存命中率可能會(huì )受到嚴重影響,導致系統性能的不穩定。
與傳統的緩存系統不同,CVflow架構采取了一種創(chuàng )新的策略,將片上內存(On-chip Memory)分割成多個(gè)不同大小的內存塊,這些內存塊被稱(chēng)為Partial Buffers(PB)。這些PB的主要用途是存儲計算過(guò)程中的中間結果,從而顯著(zhù)減少對外部DRAM的訪(fǎng)問(wèn)次數。Partial Buffers所帶來(lái)的優(yōu)勢如下:
簡(jiǎn)化的硬件設計與成本優(yōu)化:PB的設計相較于傳統緩存更為簡(jiǎn)單,這意味著(zhù)在硬件實(shí)現上,CVflow架構能夠節省更多的芯片面積,進(jìn)而降低制造成本和功耗。
獨立的DMA通道:為了確保數據的高效傳輸,CVflow架構為Partial Buffers配置了獨立的DMA(Direct Memory Access)通道。這使得數據能夠從DRAM中快速、無(wú)縫地傳輸到PB中,從而避免了數據傳輸的瓶頸。
訪(fǎng)存效率高: 一次性從DRAM和PB之間傳輸大塊數據的策略, 替代了傳統的多次小塊數據傳輸的方式, 減少了數據在內存和向量處理器(NVP)之間的搬運數次,降低了數據傳輸的延遲和開(kāi)銷(xiāo)
與計算單元并行處理:PB在CVflow內部被組織成一個(gè)環(huán)形結構。這意味著(zhù)當一個(gè)PB的數據被使用后,CVflow的硬件調度器會(huì )智能地加載下一個(gè)所需的數據塊到空閑的PB中。這種設計允許數據預加載與計算單元的工作并行進(jìn)行,從而消除了數據等待時(shí)間,提高了整體計算效率。
簡(jiǎn)化的內存管理:與需要手動(dòng)優(yōu)化和管理的傳統緩存系統不同,CVflow轉換工具能夠自動(dòng)、高效地管理PB。這意味著(zhù)開(kāi)發(fā)人員無(wú)需花費額外的時(shí)間和精力來(lái)管理片上內存,從而可以更加專(zhuān)注于算法和應用的開(kāi)發(fā)。
以圖2所示的卷積神經(jīng)網(wǎng)絡(luò )為例,在傳統的計算架構中,該網(wǎng)絡(luò )通常需要12次的DRAM訪(fǎng)問(wèn)來(lái)完成一次完整的計算過(guò)程。然而,在CVflow架構下,通過(guò)利用高效的Partial Buffers(PB)設計,3到12過(guò)程的內存訪(fǎng)問(wèn)被低延遲的PB所取代。這意味著(zhù),中間計算結果可以直接在PB中完成,而無(wú)需頻繁地訪(fǎng)問(wèn)外部的DRAM。因此,整個(gè)計算過(guò)程中,只需要在輸入和輸出階段各進(jìn)行一次DRAM訪(fǎng)問(wèn),從而減少了10次的DRAM訪(fǎng)問(wèn)。這種優(yōu)化不僅顯著(zhù)降低了計算過(guò)程中的延遲,還因為減少了外部DRAM的訪(fǎng)問(wèn)次數,從而降低了整體的功耗。
圖2 CVflow卷積神經(jīng)網(wǎng)絡(luò )計算示例
·并行的流式架構
CVflow工具根據芯片的片上內存大小,智能地將大型神經(jīng)網(wǎng)絡(luò )切割成多個(gè)連續的、緊湊的計算單元,這些單元被組織成有向無(wú)環(huán)圖(DAG)的形式。這種獨特的架構帶來(lái)了多重優(yōu)勢:
高效內存利用:每個(gè)DAG的中間計算步驟都在片上內存內完成,從而避免了頻繁訪(fǎng)問(wèn)外部DRAM的需求。這不僅減少了數據傳輸的延遲,還提高了內存的使用效率。
快速啟動(dòng)與并行處理:網(wǎng)絡(luò )加載時(shí)間大大縮短,因為只需加載一部分網(wǎng)絡(luò )即可開(kāi)始計算。同時(shí),在計算過(guò)程中,CVflow能夠并行加載網(wǎng)絡(luò )的后續部分,實(shí)現了計算與數據加載的并行化,進(jìn)一步提升了整體性能。
穩健的性能表現:由于大大減少了對DRAM的訪(fǎng)問(wèn)次數,并且實(shí)現了計算與數據加載的并行處理,CVflow架構在面臨其他芯片模塊(如CPU、GPU、ISP)同時(shí)高負載運行的場(chǎng)景時(shí),仍能保持穩定的性能表現,從而確保了在各種復雜環(huán)境下的可靠性。
圖3 AI模型的DAG切割示意圖
·硬件實(shí)現的算子
與GPU通過(guò)簡(jiǎn)單地堆砌計算單元來(lái)提升算力的方式不同,CVflow架構致力于通過(guò)實(shí)現高效的硬件算子來(lái)加速計算過(guò)程。CV3的CVflow架構,基于對深度學(xué)習網(wǎng)絡(luò )的前瞻性研究,實(shí)現了超過(guò)100種常用算子的硬件化。這種設計策略使得CVflow在晶體管數量更少的情況下實(shí)現了出色的算力。
以8x8的矩陣乘法為例,傳統的計算方式需要512個(gè)乘加(MAC)操作,但在CVflow架構中,其特有的矩陣乘法算子能夠在單個(gè)計算指令周期內完成。此外,CVflow還支持多種融合算子的應用。例如,對于常見(jiàn)的2D/3D卷積與池化操作,CVflow的轉換工具能夠自動(dòng)將這兩個(gè)操作融合為一個(gè)硬件算子操作,從而有效減少了數據吞吐量和計算周期,進(jìn)一步提升了整體性能。
·非結構化的稀疏加速
通過(guò)將AI模型稀疏化,去除冗余參數, CVflow架構帶來(lái)了顯著(zhù)的性能提升, 具體而言:
CVflow工具能夠自動(dòng)壓縮網(wǎng)絡(luò )參數,這減少了芯片端加載AI模型所需的時(shí)間。
芯片端的CVflow硬件調度器具備智能分析能力,可以自動(dòng)識別并跳過(guò)不必要的計算,從而顯著(zhù)降低了計算量。
無(wú)需對AI模型結構進(jìn)行調整, 從而實(shí)現了算法的一次性開(kāi)發(fā)和無(wú)縫部署。這種特性簡(jiǎn)化了模型部署過(guò)程,使得模型開(kāi)發(fā)人員無(wú)需擔心模型結構的兼容性問(wèn)題,可以專(zhuān)注于算法的優(yōu)化和創(chuàng )新。
CVflow工具鏈提供了多種稀疏策略來(lái)保證AI模型稀疏后的精度。
以7x7卷積為例,未進(jìn)行稀疏化之前,每次卷積操作都需要用到全部的49個(gè)參數,并且會(huì )執行49次乘加(MAC)操作。然而,當實(shí)施了80%的稀疏化后,情況發(fā)生了顯著(zhù)變化:參數量減少了60%,這意味著(zhù)存儲和傳輸的效率大大提升;計算量減少了80%,從而極大地提高了卷積操作的效率。這種CVflow獨有的稀疏化技術(shù)對于優(yōu)化AI模型的性能和資源消耗至關(guān)重要。
圖4 CVflow 網(wǎng)絡(luò )稀疏化示例
·支持多種量化格式
CV3的CVflow架構具有強大的數據格式支持能力, 可以支持 4, 8, 16, 32的定點(diǎn)數據格式和16, 32位的浮點(diǎn)數據格式。CVflow工具能夠針對每一層網(wǎng)絡(luò )參數和輸入輸出數據進(jìn)行精確的動(dòng)態(tài)范圍分析,從而確定最優(yōu)的量化精度,實(shí)現高效的混合精度部署。這一特性使得CV3在處理不同數據類(lèi)型和規模的任務(wù)時(shí),能夠靈活適應并發(fā)揮最佳性能。
2024年國際消費電子展(CES)期間,安霸展出了基于CV3平臺的自動(dòng)駕駛研發(fā)車(chē)輛, 并為受邀客戶(hù)提供試駕體驗。此次展出進(jìn)一步驗證了CV3 CVflow架構芯片的強大實(shí)力, 即便面對自動(dòng)駕駛場(chǎng)景的大算力、高帶寬的復雜計算需求,也能游刃有余地應對。
2023年, 特斯拉實(shí)現了首個(gè)端到端大模型自動(dòng)駕駛系統, 將原本龐大的30萬(wàn)行的人工規則算法精簡(jiǎn)至僅2000行代碼。隨著(zhù)駕駛數據的不斷積累,自動(dòng)駕駛技術(shù)正朝著(zhù)端到端大模型的方向發(fā)展。 面對未來(lái)大模型自動(dòng)駕駛時(shí)代的算力與內存墻挑戰, 專(zhuān)為自動(dòng)駕駛設計的CV3-AD系列芯片憑借第三代CVflow架構,以芯片架構創(chuàng )新的方式,突破大算力芯片的內存墻的限制,為大模型算法提供了強大的硬件支持, 助力高級輔助駕駛以及自動(dòng)駕駛技術(shù)的普及與發(fā)展。
(Ambarella安霸 何小林)
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問(wèn)題,請聯(lián)系小編進(jìn)行處理。
推薦閱讀:
CITE2024開(kāi)展倒計時(shí) 等你來(lái)看大模型、芯片、機器人、智能駕駛……
矽知科技與傳感器專(zhuān)家網(wǎng)正式啟動(dòng)戰略合作 助力傳感器產(chǎn)業(yè)邁入萬(wàn)億級智能新時(shí)代