【導讀】如果企業(yè)擁有數據中心,需要關(guān)注的是人工智能(AI)技術(shù)可能很快就會(huì )部署到數據中心。無(wú)論AI系統是一個(gè)聊天機器人,還是橫跨多個(gè)系統的自動(dòng)化流程,亦或是對大型數據集的有效分析,這項新技術(shù)都有望加速和改善許多企業(yè)的業(yè)務(wù)模式。然而,AI的概念也可能會(huì )令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò )如何工作以及該技術(shù)面臨的獨特挑戰等五個(gè)方面的基本問(wèn)題。
如果企業(yè)擁有數據中心,需要關(guān)注的是人工智能(AI)技術(shù)可能很快就會(huì )部署到數據中心。無(wú)論AI系統是一個(gè)聊天機器人,還是橫跨多個(gè)系統的自動(dòng)化流程,亦或是對大型數據集的有效分析,這項新技術(shù)都有望加速和改善許多企業(yè)的業(yè)務(wù)模式。然而,AI的概念也可能會(huì )令人產(chǎn)生困惑和誤解。是德科技的這篇文章旨在探討有關(guān)AI網(wǎng)絡(luò )如何工作以及該技術(shù)面臨的獨特挑戰等五個(gè)方面的基本問(wèn)題。
GPU相當于AI計算機的“大腦”
簡(jiǎn)單來(lái)說(shuō),AI計算機的大腦就是圖形處理器(GPU)。過(guò)去,人們可能聽(tīng)說(shuō)過(guò)中央處理器(CPU)是計算機的大腦。GPU 的優(yōu)勢在于,它是一個(gè)擅長(cháng)進(jìn)行數學(xué)計算的 CPU。當創(chuàng )建AI計算機或深度學(xué)習模型時(shí),需要對其進(jìn)行 “訓練”,這就要求對可能包含數十億個(gè)參數的數學(xué)矩陣方程進(jìn)行求解。進(jìn)行此種數學(xué)運算的最快方法是讓多組 GPU 在相同的工作負載上運行,即便如此,訓練AI模型也可能需要數周甚至數月的時(shí)間。AI模型創(chuàng )建后,會(huì )被遷移到前端計算機系統,用戶(hù)可以向模型提問(wèn),這就是所謂的推理。
AI計算機集眾多GPU于一身
用于處理AI工作負載的最佳架構是在一個(gè)機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架,按照網(wǎng)絡(luò )層次結構連接所有 GPU。隨著(zhù)所要解決的問(wèn)題的復雜性增加,對 GPU 的需求也就越大,有些將要部署的解決方案可能會(huì )包含數千個(gè) GPU 集群。這不難讓人聯(lián)想到數據中心里一排又一排密密麻麻的服務(wù)器機架,這種場(chǎng)景非常常見(jiàn)。
AI集群是一個(gè)小型網(wǎng)絡(luò )
在構建AI集群時(shí),有必要將更多GPU連接起來(lái),這樣它們才能協(xié)同工作。而GPU之間的連接可以通過(guò)創(chuàng )建微型計算機網(wǎng)絡(luò )的方式來(lái)實(shí)現,讓GPU與GPU之間能夠互相發(fā)送和接收數據。
圖1:AI集群
圖1展示了一個(gè)AI集群,其中最下方的圓圈代表了GPU在執行任務(wù)時(shí)的工作流程。將許多GPU連接到了機架頂部(ToR)的交換機。ToR 交換機還連接到了上圖頂部的骨干網(wǎng)絡(luò )中使用的交換機,這張圖充分描繪了需要集成眾多GPU時(shí)所采用的清晰網(wǎng)絡(luò )層次結構。
AI部署的瓶頸在于網(wǎng)絡(luò )
去年秋天,在OCP(開(kāi)放計算項目)全球峰會(huì )上,與會(huì )者重點(diǎn)討論了新一代AI基礎設施。其中,來(lái)自邁威爾科技的Loi Nguyen充分闡述了由此出現的一個(gè)關(guān)鍵問(wèn)題:網(wǎng)絡(luò )已經(jīng)成為新的瓶頸。
GPU在解決數學(xué)問(wèn)題或者處理工作負載方面非常有效。這些系統完成任務(wù)的最快方法是讓所有 GPU并行計算、協(xié)同工作來(lái)處理相同的工作負載。要做到這一點(diǎn),GPU需要獲取它們即將處理的信息,并且它們彼此之間可以互相進(jìn)行通信。如果其中一個(gè)GPU沒(méi)有得到它所需的信息,或者需要更長(cháng)的時(shí)間來(lái)輸出結果,那么所有其他GPU都必須等待,直到能夠一致協(xié)作來(lái)完成任務(wù)。
從技術(shù)角度來(lái)講,擁堵的網(wǎng)絡(luò )造成的數據包延遲或者數據包丟失可能會(huì )導致系統需要反復重新傳輸數據包,并顯著(zhù)延長(cháng)完成任務(wù)所需的時(shí)間。這意味著(zhù),可能會(huì )有價(jià)值數百萬(wàn)或數千萬(wàn)美元的 GPU閑置,從而影響最終的結果,當然也可能會(huì )影響希望通過(guò)利用AI技術(shù)獲得商機的企業(yè)的上市時(shí)間。
測試是成功運行AI網(wǎng)絡(luò )的關(guān)鍵
為了高效運行AI集群,用戶(hù)需要確保GPU得到充分利用,這樣才能較早地完成學(xué)習模型的訓練,并將其投入使用,實(shí)現投資回報最大化。這就需要對AI集群(圖2)的性能進(jìn)行測試和基準測試。然而,這并不是一件輕而易舉的事兒,因為GPU和網(wǎng)絡(luò )架構之間有著(zhù)千絲萬(wàn)縷的聯(lián)系和諸多設置,它們需要在架構上實(shí)現互補,以滿(mǎn)足處理工作負載的需要。
圖2:AI數據中心測試平臺及如何測試AI數據中心集群
這給AI網(wǎng)絡(luò )帶來(lái)了諸多挑戰:
-考慮到成本、設備的可用性、熟練的網(wǎng)絡(luò ) AI 工程師的時(shí)間、空間、功率和熱量等因素的限制,很難在實(shí)驗室中復刻完整的工作網(wǎng)絡(luò )。
-在工作系統上執行測試會(huì )降低工作系統可用的處理能力。
-由于工作負載的類(lèi)型以及數據集的規模大小和范圍可能大不相同,因此所要研究的問(wèn)題也會(huì )難以重現。
-深入洞察GPU之間的集體通信也頗具挑戰性。
應對上述挑戰的方法之一是,首先在實(shí)驗室環(huán)境中對所提出的設置的一個(gè)子集執行測試,以便對JCT、整個(gè)AI集群所能達到的帶寬等關(guān)鍵參數進(jìn)行基準測試,同時(shí)將這些參數與Fabric容量利用率以及內存緩沖區消耗情況進(jìn)行比較。這種基準測試有助于找到GPU/工作負載的分布與網(wǎng)絡(luò )設計/設置之間的平衡點(diǎn)。當計算架構和網(wǎng)絡(luò )工程師對結果比較滿(mǎn)意時(shí),他們就能夠將這些設置應用到執行任務(wù)的工作系統中并且衡量新的結果是否理想。
小結
為了充分釋放AI的潛能,需要優(yōu)化AI網(wǎng)絡(luò )的設備和基礎架構。企業(yè)的研究實(shí)驗室和學(xué)術(shù)機構致力于對構建和運行高效AI網(wǎng)絡(luò )所涉及的各個(gè)層面進(jìn)行分析,以解決在大型網(wǎng)絡(luò )上執行任務(wù)所面臨的挑戰。尤其是在當前行業(yè)最佳實(shí)踐正不斷發(fā)生變化的情況下,形勢更是如此。只有采用這種可以反復驗證、高度協(xié)作的方法,業(yè)界才能實(shí)現可重復的測試,并靈活地嘗試各種“假設 ”場(chǎng)景,這是優(yōu)化AI網(wǎng)絡(luò )的基礎。
關(guān)于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng )新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標準普爾 500 指數公司,我們提供先進(jìn)的設計、仿真和測試解決方案,旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開(kāi)發(fā)和部署,同時(shí)控制好風(fēng)險。我們的客戶(hù)遍及全球通信、工業(yè)自動(dòng)化、航空航天與國防、汽車(chē)、半導體和通用電子等市場(chǎng)。我們與客戶(hù)攜手,加速創(chuàng )新,創(chuàng )造一個(gè)安全互聯(lián)的世界。
作者:是德科技產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Linas Dauksa
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問(wèn)題,請聯(lián)系小編進(jìn)行處理。
推薦閱讀:
AGIC通用人工智能展與IOTE物聯(lián)網(wǎng)展攜手圓滿(mǎn)落幕,物聯(lián)網(wǎng)科技盛宴精彩紛呈!
貿澤、Analog Devices和Samtec推出全新電子書(shū) 匯集各路專(zhuān)家關(guān)于信號完整性的真知灼見(jiàn)