国产精品久久久久影院,成人午夜福利视频,国产精品久久久久高潮,国产精品 欧美 亚洲 制服,国产精品白浆无码流出

破解AI集群擴展中的關(guān)鍵瓶頸

發(fā)布者:EE小廣播最新更新時間:2025-04-15 來源: EEWORLD關(guān)鍵字:是德科技  AI  數(shù)據(jù)中心  網(wǎng)絡(luò) 手機看文章 掃描二維碼
隨時隨地手機看文章

image.png

作者:是德科技產(chǎn)品營銷經(jīng)理Emily Yan


人工智能(AI)正以前所未有的速度向前發(fā)展,整個市場迫切需要更加強大、更加高效的數(shù)據(jù)中心來夯實技術(shù)底座。為此,各個國家以及不同類型的企業(yè)正在加大對人工智能基礎(chǔ)設(shè)施的投入。據(jù)《福布斯》報道,2025年,泛科技領(lǐng)域?qū)θ斯ぶ悄艿闹С鰧⒊^2500億美元,其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè)。到 2029 年,全球?qū)Π〝?shù)據(jù)中心、網(wǎng)絡(luò)和硬件在內(nèi)的人工智能基礎(chǔ)設(shè)施的投資將達到4230億美元。


然而,人工智能技術(shù)的快速創(chuàng)新迭代也給數(shù)據(jù)中心網(wǎng)絡(luò)帶來了前所未有的壓力。例如,Meta最近發(fā)布的有關(guān)Llama 3 405B模型訓練集群的論文顯示,該模型在預(yù)訓練階段需要超過700 TB的內(nèi)存和16000顆英偉達H100 GPU芯片。據(jù)Epoch AI預(yù)計,到2030年,人工智能模型所需的計算能力將是目前領(lǐng)先模型的1萬倍。


如果企業(yè)擁有數(shù)據(jù)中心,那么部署人工智能只是時間問題。此篇是德科技署名文章旨在探討人工智能集群擴展面臨的關(guān)鍵挑戰(zhàn),同時揭示為何“網(wǎng)絡(luò)會是新的瓶頸”。


人工智能集群的崛起


所謂人工智能集群就是一個高度互聯(lián)的大型計算資源網(wǎng)絡(luò),用于處理人工智能工作負載。

與傳統(tǒng)的計算集群不同,人工智能集群針對人工智能模型訓練、推理和實時分析等工作任務(wù)進行了優(yōu)化。它們依靠數(shù)千個GPU、高速互連和低時延的網(wǎng)絡(luò)來滿足人工智能對密集計算和數(shù)據(jù)吞吐量的要求。


建設(shè)人工智能集群


人工智能集群的核心功能類似于一個小型網(wǎng)絡(luò)。構(gòu)建人工智能集群需要將GPU連接起來,形成一個高性能計算網(wǎng)絡(luò),讓數(shù)據(jù)在GPU之間實現(xiàn)無縫傳輸。這其中強大的網(wǎng)絡(luò)連接至關(guān)重要,因為分布式訓練往往需要使用數(shù)千個GPU進行長時間并行計算。


人工智能集群的關(guān)鍵組成部分


如圖1所示,人工智能集群由多個重要部分組成。

 image.png

圖1:AI數(shù)據(jù)中心集群


  • 計算節(jié)點如同人工智能集群的大腦,由成千上萬個GPU組成并連接到了機架頂部的交換機。隨著復(fù)雜性的提升,對GPU的需求也在增加。

  • 以太網(wǎng)等高速互聯(lián)技術(shù)可實現(xiàn)計算節(jié)點之間的快速數(shù)據(jù)傳輸。

  •  網(wǎng)絡(luò)基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)硬件和協(xié)議,它們能夠支持在數(shù)千個GPU之間進行長時間的數(shù)據(jù)通信。


擴展人工智能集群


人工智能集群可進行擴展,以應(yīng)對日益增長的人工智能工作負載和復(fù)雜性。直到近期,由于網(wǎng)絡(luò)帶寬、時延等因素的限制,人工智能集群的規(guī)模局限在約3萬個GPU。然而,xAI Colossus超級計算機項目打破了這一局限,將所使用的GPU數(shù)量擴展到了超過10萬顆英偉達H100 GPU芯片,網(wǎng)絡(luò)和內(nèi)存技術(shù)的進步使得這一突破成為可能。


擴展面臨的關(guān)鍵挑戰(zhàn)


隨著人工智能模型的相關(guān)參數(shù)增長到數(shù)萬億個,人工智能集群的擴展會遇到大量來自技術(shù)和財務(wù)層面的阻礙。


網(wǎng)絡(luò)挑戰(zhàn)


GPU可以有效地執(zhí)行并行計算。然而,當數(shù)千個甚至幾十萬個GPU在人工智能集群中共同執(zhí)行同一工作任務(wù)時,如果其中一個GPU缺乏所需的數(shù)據(jù)或遇到延遲等情況,其他GPU的工作就會停滯不前。這種長時間的數(shù)據(jù)包延遲或網(wǎng)絡(luò)擁堵造成的數(shù)據(jù)包丟失會導致需要重新傳輸數(shù)據(jù)包,從而大幅延長了任務(wù)完成時間(JCT),造成價值數(shù)百萬美元的GPU閑置。


此外,人工智能工作負載產(chǎn)生的東西向流量,也就是數(shù)據(jù)中心內(nèi)部計算節(jié)點之間的數(shù)據(jù)遷移,急劇增加,如果傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施沒有針對這些負載進行優(yōu)化,可能會出現(xiàn)網(wǎng)絡(luò)擁堵和延遲問題。


互聯(lián)挑戰(zhàn)


隨著人工智能集群規(guī)模的拓展,傳統(tǒng)的互連技術(shù)可能難以支持必要的吞吐量。為了避免瓶頸問題,企業(yè)必須進行升級迭代,采用更高速的互連技術(shù),如800G甚至1.6T的解決方案。然而,要滿足人工智能工作負載的嚴格要求,部署和驗證此類高速鏈路并非易事。高速串行路徑必須經(jīng)過仔細調(diào)試和測試,以確保最佳的信號完整性、較低的誤碼率和長距可靠的前向糾錯(FEC)性能。高速串行路徑中的任何不穩(wěn)定因素都會降低可靠性并減慢人工智能訓練的速度。企業(yè)需要采用高精度、高效率的測試系統(tǒng),在高速互聯(lián)技術(shù)部署前對其進行驗證。


財務(wù)挑戰(zhàn)


擴展人工智能集群的總成本遠遠不止于購買GPU的花費。企業(yè)必須將電源、冷卻、網(wǎng)絡(luò)設(shè)備和更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施等相關(guān)投入考慮在內(nèi)。然而,通過采用更出色的互連技術(shù)并借助經(jīng)過優(yōu)化的網(wǎng)絡(luò)性能來加速處理人工智能工作負載,可以縮短訓練周期,并釋放資源用于執(zhí)行其他任務(wù)。這也意味著每節(jié)省一天的培訓時間,就能大幅降低成本,因此對于財務(wù)風險和技術(shù)風險需要給予同等的重視。


測試和驗證面臨的挑戰(zhàn)


優(yōu)化人工智能集群的網(wǎng)絡(luò)性能需要對網(wǎng)絡(luò)架構(gòu)和GPU之間的互連技術(shù)進行性能測試和基準測試。然而,由于硬件、架構(gòu)設(shè)計和動態(tài)工作負載特性之間的關(guān)系錯綜復(fù)雜,對這些器件和系統(tǒng)進行驗證具有很大的挑戰(zhàn)性。主要有三個常見的驗證問題需要解決。


第一,實驗室部署方面的限制


人工智能硬件成本高昂、可用的設(shè)備有限以及對專業(yè)網(wǎng)絡(luò)工程師的需求缺口,使得全盤復(fù)制變得不切實際。此外,實驗室環(huán)境通常在空間、電力和散熱方面受到限制,與現(xiàn)實世界的數(shù)據(jù)中心條件不同。


第二,對生產(chǎn)系統(tǒng)的影響


減少對生產(chǎn)系統(tǒng)的測試可能會造成破壞,并影響關(guān)鍵的人工智能操作。


第三,復(fù)雜的人工智能工作負載


人工智能工作負載和數(shù)據(jù)集的性質(zhì)多種多樣,在規(guī)模和通信模式上也有很大差異,因此很難重現(xiàn)問題并執(zhí)行一致性的基準測試。


人工智能將重塑數(shù)據(jù)中心的產(chǎn)業(yè)格局,因此構(gòu)建面向未來的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對于在技術(shù)和標準快速演進的過程中保持領(lǐng)先地位至關(guān)重要。是德科技先進的仿真解決方案可在部署前對網(wǎng)絡(luò)協(xié)議和系統(tǒng)運行的場景進行全面驗證,進而幫助企業(yè)獲得關(guān)鍵優(yōu)勢。是德科技致力于幫助網(wǎng)絡(luò)工程師降低人工智能工作負載的復(fù)雜性并優(yōu)化網(wǎng)絡(luò)性能,從而確保系統(tǒng)的可擴展性、效率,并為應(yīng)對人工智能需求做好充分準備。


關(guān)鍵字:是德科技  AI  數(shù)據(jù)中心  網(wǎng)絡(luò) 引用地址:破解AI集群擴展中的關(guān)鍵瓶頸

上一篇:高性能三通道雙向電源:實現(xiàn)更多測試與更高吞吐量
下一篇: 泰克閃耀 2025 慕尼黑上海電子展,引領(lǐng)測試技術(shù)新變革

推薦閱讀最新更新時間:2025-07-04 11:50

英特爾推進全新架構(gòu),面向數(shù)據(jù)中心、HPC-AI和客戶端計算
英特爾推出兩大x86 CPU內(nèi)核、兩大數(shù)據(jù)中心SoC、兩款獨立GPU,以及變革性的客戶端多核性能混合架構(gòu) Raja M. Koduri 英特爾公司高級副總裁兼加速計算系統(tǒng)和圖形事業(yè)部總經(jīng)理 架構(gòu)是硬件和軟件的“煉金術(shù)”。它融合特定計算引擎所需的先進晶體管,通過領(lǐng)先的封裝技術(shù)將它們連接,集成高帶寬和低功耗緩存,在封裝中為混合計算集群配備高容量、高帶寬內(nèi)存和低時延、可擴展互連,并確保所有軟件無縫地加速。披露面向新產(chǎn)品的架構(gòu)創(chuàng)新,是英特爾架構(gòu)師在每年架構(gòu)日上的期許,今年舉辦的第三屆英特爾架構(gòu)日令人十分興奮。 今天,我們公布了英特爾?架構(gòu)在近年來重大的改變和創(chuàng)新。 這包括:第一次深入介紹了英特爾首個性能混合架構(gòu)Alder
[嵌入式]
英特爾推進全新架構(gòu),面向<font color='red'>數(shù)據(jù)中心</font>、HPC-<font color='red'>AI</font>和客戶端計算
博科擴展數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,加速數(shù)字化轉(zhuǎn)型
Marketwired 2016年12月6日美國加州圣何塞---- 博科(納斯達克股票代碼:BRCD)今天宣布推出擴展的Brocade(R) SLX(R)系列交換機,新款創(chuàng)新型交換機擁有無與倫比的網(wǎng)絡(luò)可見性,新增的Brocade Workflow Composer(TM)自動化套件提供全套自動化能力。這是業(yè)界首個在數(shù)據(jù)中心堆棧的所有層面實現(xiàn)敏捷性的數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品組合,而且它們是開放的,向客戶提供多種選擇。組織機構(gòu)可以通過博科構(gòu)建網(wǎng)絡(luò),使他們能迅速適應(yīng)技術(shù)轉(zhuǎn)型,提供云速度的新服務(wù)和加速數(shù)字化轉(zhuǎn)型。 基于博科9月份推出的Brocade SLX 9850路由解決方案,新款SLX 9140、 SLX 9240 和 SLX 954
[網(wǎng)絡(luò)通信]
中興通訊發(fā)布《人工智能助力網(wǎng)絡(luò)智能化》白皮書
中興通訊近期正式向業(yè)界發(fā)布了《人工智能助力網(wǎng)絡(luò)智能化》白皮書。白皮書聚焦通訊網(wǎng)絡(luò)人工智能,結(jié)合中興通訊在網(wǎng)絡(luò)智能化方面最新研究和實踐,全面闡述了以“網(wǎng)絡(luò)自治、預(yù)見未來、隨需而動、智慧運營”為愿景的未來智能化網(wǎng)絡(luò)架構(gòu)、方案及場景。 中興通訊副總裁尤琰表示,中興通訊認為智能化是未來網(wǎng)絡(luò)發(fā)展趨勢,網(wǎng)絡(luò)運營和運維模式未來將發(fā)生根本性變革,由當前以人驅(qū)動為主的人治模式,逐步向網(wǎng)絡(luò)自我驅(qū)動為主的自治模式演進。智能化網(wǎng)絡(luò)將通過網(wǎng)絡(luò)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、用戶數(shù)據(jù)等多維數(shù)據(jù)感知,基于大數(shù)據(jù)、大算力和大算法三大基礎(chǔ)能力,實現(xiàn)高度自治。 “中興通訊密切關(guān)注電信運營商數(shù)字化轉(zhuǎn)型和網(wǎng)絡(luò)智能化演進,并以uSmartInsight平臺為基礎(chǔ),提供全方位大數(shù)據(jù)
[手機便攜]
羅文:人工智能正成為建設(shè)制造強國和網(wǎng)絡(luò)強國的新引擎
  中國 人工智能 產(chǎn)業(yè)發(fā)展聯(lián)盟成立大會在北京隆重召開。國家發(fā)展和改革委員會副主任林念修、科學技術(shù)部副部長李萌、工業(yè)和信息化部副部長羅文,中央網(wǎng)絡(luò)安全和信息化領(lǐng)導小組辦公室信息化發(fā)展局局長徐愈,以及相關(guān)領(lǐng)導出席聯(lián)盟大會。來自中科院、工程院的院士專家、 人工智能 領(lǐng)域領(lǐng)軍企業(yè)與研究機構(gòu)、媒體等代表,共300余人參加此次大會。下面就隨網(wǎng)絡(luò)通信小編一起來了解一下相關(guān)內(nèi)容吧。   羅文在講話中指出,當前,新一輪科技革命和產(chǎn)業(yè)變革正在孕育興起,大數(shù)據(jù)理論的形成、算法的革新、芯片能力的提升、云計算的應(yīng)用以及網(wǎng)絡(luò)設(shè)施的演進,驅(qū)動著 人工智能 產(chǎn)業(yè)發(fā)展進入新階段。人工智能將進一步帶動其他技術(shù)的進步,推動戰(zhàn)略性新興產(chǎn)業(yè)總體突破。人工智能正在成為推
[網(wǎng)絡(luò)通信]
曝特斯拉將在中國建立自駕數(shù)據(jù)中心!還要采用NVIDIA最先進芯片
據(jù)媒體報道,有多名知情人士透露,特斯拉正在考慮在中國收集數(shù)據(jù),并在中國建立數(shù)據(jù)中心進行數(shù)據(jù)處理以及訓練自動駕駛技術(shù)算法,進而推動其FSD系統(tǒng)的全球部署。 這也是特斯拉CEO埃隆·馬斯克戰(zhàn)略轉(zhuǎn)變的一部分,此前其堅持將在中國收集的數(shù)據(jù)轉(zhuǎn)移到海外處理。 目前,尚不清楚特斯拉將如何處理這些自動駕駛數(shù)據(jù),是否會同時采用數(shù)據(jù)傳輸和本地數(shù)據(jù)中心兩種方式,或者將兩者視為平行計劃。 同時還有有知情人士透露,特斯拉已經(jīng)與美國芯片巨頭英偉達進行了談判,雙方正在討論為中國數(shù)據(jù)中心購買圖形處理器的問題。 然而,由于美國制裁的影響,英偉達被禁止在中國銷售其最先進芯片,這可能對特斯拉的計劃構(gòu)成阻礙。 有分析認為,特斯拉在中國的數(shù)據(jù)中心建設(shè),將有助于公司更好地適
[汽車電子]
全閃存數(shù)據(jù)中心的夢想正在慢慢實現(xiàn)
2011 年,當 Pure Storage 為任務(wù)關(guān)鍵型數(shù)據(jù)中心發(fā)表了第一套足夠強大、且經(jīng)濟的全閃存存儲陣列時,引起了市場與客戶的關(guān)注。從此,Pure 便立志要實現(xiàn)全閃存數(shù)據(jù)中心的夢想。 相較于傳統(tǒng)的存儲介質(zhì),如磁盤或磁帶,閃存的優(yōu)勢毋庸置疑,但其最大障礙在于成本。不過,磁盤與閃存之間的總體擁有成本 (TCO) 差異,其實比許多人想象的還低。本文將探討,在未來短期之內(nèi)可能讓硬盤不再具備成本優(yōu)勢的一些因素。 值得事先一提的是,對于任何性能或延遲敏感的工作負載來說,閃存早已是它們的最佳選擇。自從閃存進入企業(yè)存儲市場以來,其便從上至下一級一級地逐步淘汰硬盤,目前只剩下磁盤驅(qū)動器還維持著市場占有率優(yōu)勢,即容量導向的近線驅(qū)動器。
[嵌入式]
“車輪上的數(shù)據(jù)中心”滾滾駛來, 多域融合SOC芯片才是核心
在智能化和軟件定義趨勢下,汽車正在成為車輪上的數(shù)據(jù)中心,汽車芯片的功能要求、標準體系、技術(shù)架構(gòu)、產(chǎn)業(yè)協(xié)作模式、供應(yīng)鏈模式也在重塑調(diào)整,以更好地適應(yīng)和助力汽車產(chǎn)業(yè)發(fā)展。11月18日,由中國汽車芯片產(chǎn)業(yè)創(chuàng)新戰(zhàn)略聯(lián)盟承辦的全球化時代汽車芯片生態(tài)論壇在安徽省合肥市舉辦,與會專家及企業(yè)家圍繞智能化時代,全球汽車芯片產(chǎn)業(yè)的進化與蝶變進行探討交流,可謂匯聚了當前對汽車芯片發(fā)展趨勢最全面的觀點。 多域融合的SOC芯片將成為智能汽車核心 隨著智能網(wǎng)聯(lián)技術(shù)的發(fā)展,汽車EE(電子電氣)架構(gòu)由分布式走向域控制架構(gòu),進一步提升了功能集成度和系統(tǒng)效率。在異構(gòu)計算和超大規(guī)模集成電路的推動下,集成度更高的中央計算成為汽車EE架構(gòu)的重要發(fā)展方向。 中國
[汽車電子]
AMD推出世界首款采用3D芯片堆疊的數(shù)據(jù)中心CPU
AMD宣布全面推出世界首款采用3D芯片堆疊的數(shù)據(jù)中心CPU,即采用AMD 3D V-Cache技術(shù)的第三代AMD EPYC(霄龍)處理器,代號“Milan-X(米蘭-X)”。這些處理器基于“Zen 3”核心架構(gòu),進一步擴大了第三代EPYC處理器系列產(chǎn)品,相比非堆疊的第三代AMD EPYC處理器,可為各種目標技術(shù)計算工作負載提供高達66%的性能提升。 全新推出的處理器擁有業(yè)界領(lǐng)先的L3緩存,并具備與第三代EPYC CPU相同的插槽、軟件兼容性以及現(xiàn)代安全功能,同時還可為技術(shù)計算工作負載提供卓越的性能,如計算流體力學(CFD)、電子設(shè)計自動化(EDA)和結(jié)構(gòu)分析等。這些工作負載均是那些需要對復(fù)雜的物理世界進行建模以創(chuàng)建模型的公司的
[半導體設(shè)計/制造]
AMD推出世界首款采用3D芯片堆疊的<font color='red'>數(shù)據(jù)中心</font>CPU
小廣播
最新測試測量文章

 
EEWorld訂閱號

 
EEWorld服務(wù)號

 
汽車開發(fā)圈

 
機器人開發(fā)圈

電子工程世界版權(quán)所有 京ICP證060456號 京ICP備10001474號-1 電信業(yè)務(wù)審批[2006]字第258號函 京公網(wǎng)安備 11010802033920號 Copyright ? 2005-2025 EEWORLD.com.cn, Inc. All rights reserved