性一色一欲一交,无码人妻AV免费一区二区三区,一本精品中文字幕在线,日韩欧美国产精品一区二区三区

面向高帶寬域的Scale-up算力高速互聯技術

訊石光通訊網 2025/7/9 10:57:23

  隨著人工智能技術的發展,AI大模型參數規模急劇擴張,對計算能力提出極高要求,企業構建智算集群并引入并行計算技術加速模型訓練。但在萬億參數規模模型的跨機并行訓練中,出現了空泡現象,即模型數據傳輸時GPU因等待而無法充分利用,影響整體訓練效率。混合專家模型引入的專家并行訓練,進一步加劇了通信帶寬和時延問題,使GPU空轉時間增加,成為大模型訓練的技術瓶頸。因此,實現超大規模智算集群內多GPU、多服務器間的高速互聯,提高GPU利用率,是行業面臨的重要挑戰。

  GPU機內高速互聯關鍵需求

  為實現GPU高速互聯、提升其利用率,業界推出超節點方案,即在單節點增加GPU數量。此舉可顯著減少跨節點通信,因機內帶寬通常遠高于跨機帶寬,充分挖掘機內帶寬潛力,成為降低GPU空轉、提升利用效率的關鍵所在。GPU機內高速互聯關鍵需求如下:

  · 更多GPU卡數可擴展互聯需求:傳統點對點互聯模式只支持單機8卡GPU互聯,需要有創新性的互聯技術突破單機8卡限制,為GPU間提供高速、低延遲通信路徑,打造更大規模高帶寬域,顯著提升單機擴展性與通信帶寬。

  · 超高帶寬需求:AI訓練要求GPU集群高吞吐量互聯,承載張量并行流量的帶寬需達T比特量級。當前主流的Scale-up互聯技術在物理層多使用以太網serdes,單通道(lane)速率高達224Gbps,遠超PCIe(peripheral component interconnet express)的serdes速率。

  · 低延遲通信需求:Scale-up網絡追求極致性能,要求時延控制在亞微秒級別,通過省略傳統網絡層、采用新信道編碼方案及優化網絡架構等手段,減少GPU因等待數據出現的閑置時間,提升系統整體性能。

  中興通訊GPU高速互聯OLink解決方案

  為了實現國內GPU支持萬億模型訓練,中興通訊設計16卡以上超節點來搭建訓練集群,縮短總體訓練時間。

  我們結合自身在高速互聯領域的技術優勢,創造性提出以太+總線融合的GPU卡間高速互聯技術方案(見圖1)。機內和機間統一采用OLink交換高速互聯方案,通過開放的OLink互聯協議+交換芯片,提供開放的端到端GPU高速互聯方案,滿足當前及未來可預見的大模型訓練場景下GPU間的高速通信需求。

  OLink高速互聯方案技術特征

  OLink高速互聯方案融合頂尖技術,物理層運用差分傳輸與輕量FEC編碼,實現低時延高帶寬;鏈路層靠自動重傳請求和循環冗余校驗確保可靠傳輸;信用流控機制攻克擁塞,保障無損通信;憑借統一內存尋址和語義技術,助力GPU內存共享,賦能高效異構協同。

  · 物理層低時延高帶寬:OLink總線在物理層對信號傳輸技術進行改進,減少干擾和噪聲,提供信號質量和完整性;采用更先進的物理介質和輕量級FEC等傳輸技術,提高物理層數據傳輸速率和亞微秒級傳輸時延。

  · 鏈路層高可靠傳輸技術:OLink總線對錯誤檢測和快速恢復技術進行優化,減少數據傳輸中的丟包和重傳,同時提供鏈路級重傳技術,保證數據的可靠傳輸。

  · 基于信用授權的流控技術:OLink總線針對機內GPU高速互聯場景,通過基于信用授權的擁塞流控機制,解決多打一等復雜場景下無損通信關鍵問題,提供智算芯片超大規模組網能力。

  · 統一內存編址技術:允許Scale-up域內的GPU共享同一個虛擬地址空間,使得多個GPU可以直接互相訪問對方的內存,方便模型參數和中間結果在顯存間靈活分配與共享,簡化異構計算編程模型。

  · 內存語義支持技術:允許在網絡通信過程中對內存進行操作,通過特定的指令集和協議,實現數據在內存和網絡之間的高效交互,為計算節點提供更靈活的操作方式,進一步提升計算性能。

  基于OLink技術的智算芯片高速互聯

  通過OLink互聯協議+交換芯片,為GPU提供大規模端到端高速互聯解決方案。

  · 借鑒業界成熟的以太網生態成為首選,復用以太網成熟的光模塊、組網方案和運維能力;

  · GPU機內和機間的互聯都使用OLink互聯技術,互聯網絡和端側設備解耦,各廠商的算力或存儲設備均可以接入本方案的互聯網絡;

  · 引入更多合作伙伴,打造規模更大、成本更低的智算平臺;

  · 在GPU端側嵌入OLink IP,同時交換芯片支持在網計算;

  · 端側OLink IP針對大模型應用場景,對以太網技術進行低延遲、無損和端網協同等方面的改進。

  OLink未來演進

  GPU機內Scale-up域高速互聯技術仍在持續迭代演進,OLink技術會在在網計算、光互聯等方向持續演進。在網計算技術方面,AllReduce、AllGather等操作常用于深度學習梯度同步,將其卸載到交換設備,設備接收數據后規約計算,能減少網絡流量,釋放處理器資源,提升網絡性能。伴隨光通信發展,Olink技術將在GPU高速互聯領域大展拳腳,實現更高傳輸速率、更低功耗與更遠傳輸距離,為高性能計算注入強大動力,開啟科技新篇章。


  作者:中興通訊 楊茂彬


新聞來源:中興通訊技術(簡訊)

相關文章