【導讀】隨著(zhù)更快的圖形處理單元(GPU)能夠提供明顯更高的計算能力,存儲設備和GPU存儲器之間的數據路徑瓶頸已經(jīng)無(wú)法實(shí)現最佳應用性能。NVIDIA的Magnum IO GPUDirect存儲解決方案通過(guò)在存儲設備和GPU存儲器之間實(shí)現直接路徑,可以極大地幫助解決該問(wèn)題。
隨著(zhù)更快的圖形處理單元(GPU)能夠提供明顯更高的計算能力,存儲設備和GPU存儲器之間的數據路徑瓶頸已經(jīng)無(wú)法實(shí)現最佳應用性能。NVIDIA的Magnum IO GPUDirect存儲解決方案通過(guò)在存儲設備和GPU存儲器之間實(shí)現直接路徑,可以極大地幫助解決該問(wèn)題。然而,同等重要的是要使用容錯系統來(lái)優(yōu)化其已經(jīng)非常出色的能力,從而確保在發(fā)生災難性故障時(shí)備份關(guān)鍵數據。該解決方案通過(guò)PCIe?結構連接邏輯RAID卷,在PCIe 4.0規范下,這可以將數據速率提高到26 GB/s。為了解如何實(shí)現這些優(yōu)勢,首先需要檢查該解決方案的關(guān)鍵組件及其如何協(xié)同工作來(lái)提供結果。
Magnum IO GPUDirect存儲
Magnum IO GPUDirect存儲解決方案的關(guān)鍵優(yōu)勢是其能夠消除主要性能瓶頸之一,方法是不使用CPU中的系統存儲器將數據從存儲設備加載到GPU中進(jìn)行處理。通常將數據移動(dòng)到主機存儲器并傳送到GPU,這依賴(lài)于CPU系統存儲器中的回彈緩沖區,在數據傳送到GPU之前,會(huì )在其中創(chuàng )建數據的多個(gè)副本。但是,通過(guò)這種路徑移動(dòng)大量數據會(huì )產(chǎn)生延遲時(shí)間,降低GPU性能,并在主機中占用許多CPU周期。借助Magnum IO GPUDirect存儲解決方案,無(wú)需訪(fǎng)問(wèn)CPU并避免了回彈緩沖區效率低下( 圖1 )。
圖1.Magnum IO GPUDirect存儲解決方案無(wú)需訪(fǎng)問(wèn)CPU,避免了從數據路徑回彈緩沖
性能直接隨著(zhù)傳送數據量的增加而提高,傳送數據量則隨著(zhù)人工智能(AI)、機器學(xué)習(ML)、深度學(xué)習(DL)和其他數據密集型應用所需的大型分布式數據集呈指數級增長(cháng)。當數據在本地存儲或遠程存儲時(shí),可以實(shí)現這些優(yōu)勢,從而允許以比CPU存儲器中的頁(yè)面緩存更快的速度訪(fǎng)問(wèn)數拍字節的遠程存儲。
優(yōu)化RAID性能
該解決方案中的下一個(gè)元素是包括RAID功能,用于保持數據冗余和容錯能力。雖然軟件RAID可以提供數據冗余,但底層軟件RAID引擎仍然使用精簡(jiǎn)指令集計算機(RISC)架構進(jìn)行操作,例如奇偶校驗計算。當比較高級RAID級別(例如RAID 5和RAID 6)的寫(xiě)I/O延遲時(shí)間時(shí),硬件RAID仍然比軟件RAID快得多,因為提供了專(zhuān)用處理器來(lái)執行這些操作和回寫(xiě)高速緩存。在流傳輸應用中,軟件RIAD的長(cháng)期RIAD響應時(shí)間會(huì )導致數據堆積在高速緩存中。硬件RAID解決方案不存在緩存數據堆積問(wèn)題,并且具有專(zhuān)門(mén)的備用電池,可以防止出現災難性系統掉電時(shí)數據丟失的情況。
標準硬件RAID雖然減輕了主機的奇偶校驗管理負擔,但大量數據仍需經(jīng)過(guò)RAID控制器才能發(fā)送到NVMe?驅動(dòng)器,導致數據路徑更加復雜。針對此問(wèn)題的解決方案是NVMe優(yōu)化的硬件RAID,該解決方案提供了簡(jiǎn)化的數據路徑,無(wú)需經(jīng)過(guò)固件或RAID片上控制器即可傳送數據。它還允許維護基于硬件的保護和加密服務(wù)。
混合PCIe結構
PCIe Gen 4現在是存儲子系統內的基本系統互連接口,但標準PCIe交換網(wǎng)具有與前幾代相同的基于樹(shù)的基本層級。這意味著(zhù),主機間通信需要非透明橋接(NTB)來(lái)實(shí)現跨分區通信,這使其變得復雜,特別是在多主機多交換網(wǎng)配置中。Microchip的PAX PCIe高級結構交換網(wǎng)等解決方案能夠克服這些限制,因為它們支持冗余路徑和循環(huán),而這是使用傳統PCIe無(wú)法實(shí)現的。
結構交換網(wǎng)具有兩個(gè)獨立的域,主機虛擬域(專(zhuān)用于每個(gè)物理主機)和結構域(包含所有端點(diǎn)和結構鏈路)。來(lái)自主機域的事務(wù)會(huì )在結構域中轉換為ID和地址,反之,結構域中通信的非分層路由也是如此。這樣,系統中的所有主機便可共享連接到交換網(wǎng)和端點(diǎn)的結構鏈路。
在嵌入式CPU上運行的結構固件通過(guò)可配置的下行端口數虛擬化符合PCIe標準的交換網(wǎng)。因此,交換網(wǎng)將始終顯示為具有直連端點(diǎn)的標準單層PCIe設備,而與這些端點(diǎn)在結構中的位置無(wú)關(guān)。由于結構交換網(wǎng)會(huì )攔截來(lái)自主機的所有配置平面通信(包括PCIe枚舉過(guò)程)并選擇最佳路徑,因此它可以實(shí)現這一點(diǎn)。這樣,GPU等端點(diǎn)便可綁定到域中的任何主機(圖2)。
圖2.交換網(wǎng)固件虛擬化的主機域顯示為每個(gè)主機符合PCIe標準的單層交換網(wǎng)
在以下示例( 圖3 )中,我們給出了雙主機PCIe結構引擎設置。此處,我們可以看到,結構虛擬化允許每個(gè)主機看到一個(gè)透明PCIe拓撲,其中包含一個(gè)上行端口、三個(gè)下行端口和三個(gè)連接到它們的端點(diǎn),并且主機可以正確枚舉它們。圖3中的有趣之處是具有一個(gè)包含兩個(gè)虛擬功能的SR-IOV SSD,通過(guò)Microchip的PCIe高級結構交換網(wǎng),同一驅動(dòng)器的虛擬功能可以共享給不同的主機。
圖3.雙主機PCIe?結構引擎
這種PAX結構交換網(wǎng)解決方案還支持在各結構之間直接跨域點(diǎn)對點(diǎn)傳輸,因此可減少根端口阻塞并進(jìn)一步緩解CPU性能瓶頸,如圖4所示。
圖4.通過(guò)結構路由通信,可減少根端口阻塞
性能優(yōu)化
在探索了NVMe驅動(dòng)器和GPU之間數據傳輸的性能優(yōu)化過(guò)程中涉及的所有組件之后,現在可以結合使用這些組件來(lái)實(shí)現預期的結果。說(shuō)明這一點(diǎn)的最佳方式是利用圖示演示各個(gè)步驟,圖5顯示了主機CPU及其根端口以及可實(shí)現最佳結果的各種配置。
如 REF _Ref90992504 \h VALUE 圖5 左側所示,盡管使用的是高性能NVMe控制器,但由于根端口的開(kāi)銷(xiāo),PCI Gen 4 x 4(4.5 GB/s)的最大數據速率也限制為3.5 GB/s。不過(guò),通過(guò)RAID(邏輯卷)同時(shí)聚合多個(gè)驅動(dòng)器(如右側所示),SmartRAID控制器可為四個(gè)NVMe驅動(dòng)器各創(chuàng )建兩個(gè)RAID卷,并通過(guò)根端口創(chuàng )建傳統PCIe點(diǎn)對點(diǎn)路由。這會(huì )將數據速率提高到9.5 GB/s。
但是,利用跨域點(diǎn)對點(diǎn)傳輸(底部的圖),可以通過(guò)結構鏈路而不是根端口來(lái)路由通信,從而實(shí)現26 GB/s的速率,這是使用SmartROC 3200 RAID控制器可達到的最高速率。在最后一個(gè)場(chǎng)景中,交換網(wǎng)提供不受固件影響的直接數據路徑,并且仍然保持基于硬件的RAID保護和加密服務(wù),同時(shí)充分利用GPUDirect存儲的全部潛能。
圖5.實(shí)現26 GB/s的路徑
總結
高性能PCIe結構交換網(wǎng)(例如Microchip的PAX)允許多主機共享支持單根I/O虛擬化(SR-IOV)的驅動(dòng)器,以及動(dòng)態(tài)劃分可在多個(gè)主機之間共享的GPU和NVMe SSD池。Microchip的PAX結構交換網(wǎng)可以將端點(diǎn)資源動(dòng)態(tài)重新分配給需要這些資源的任何主機。
這種解決方案還使用了SmartROC 3200 RAID控制器系列支持的SmartPQI驅動(dòng)程序,因此無(wú)需自定義驅動(dòng)程序。Microchip的SmartROC 3200 RAID控制器是目前惟一能夠提供最高傳輸速率(即26 GB/s)的設備。它具有極低的延遲時(shí)間,可向主機提供最多16個(gè)PCIe Gen 4通道,并向后兼容PCIe Gen 2。與Microchip基于Flashtec?系列的NVMe SSD結合使用時(shí),可在多主機系統中發(fā)揮PCIe和Magnum IO GPUDirect存儲的全部潛能??傮w而言,上述所有特性使其能夠構建一種強大的系統,該系統可以滿(mǎn)足AI、ML、DL以及其他高性能計算應用的實(shí)時(shí)需求。
作者:Microchip技術(shù)工程師Wilson Kwong;Microchip產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Sandeep Dattaprasad
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問(wèn)題,請聯(lián)系小編進(jìn)行處理。
推薦閱讀:
如何快速、經(jīng)濟地將工業(yè)以太網(wǎng)添加到工業(yè) 4.0 設備中