性一色一欲一交,无码人妻AV免费一区二区三区,一本精品中文字幕在线,日韩欧美国产精品一区二区三区

用戶名: 密碼: 驗證碼:

報告解讀 | 光I/O+OCS引領智算中心Scale-Up網絡架構新變革

摘要:凌云光光纖器件與儀器事業部CTO 張華博士于OptiNet China 2025“智算中心光網絡論壇”發表《面向智算中心Scale-Up網絡光互聯探討》專題報告,深度解析光I/O與OCS協同構建可重構數據中心網絡(RDCN)的關鍵趨勢與技術方案,并分享了基于DBS技術的高可靠性OCS方案的最新進展。

  ICC訊 在AI大模型加速演進的時代,智算中心光互聯正經歷從“橫向擴展”(Scale-Out)向“縱向擴展”(Scale-Up)拓展的大變革。面對日益嚴苛的帶寬、功耗與時延等挑戰,6月5日,凌云光光纖器件與儀器事業部CTO 張華博士于OptiNet China 2025“智算中心光網絡論壇”發表《面向智算中心Scale-Up網絡光互聯探討》專題報告,深度解析光I/O與OCS協同構建可重構數據中心網絡(RDCN)的關鍵趨勢與技術方案,并分享了基于DBS技術的高可靠性OCS方案的最新進展。

  AI時代光互聯需求瓶頸,“四重挑戰”呼喚架構革新

  隨著大模型參數規模呈指數級增長,智算中心正面臨前所未有的網絡瓶頸。張華博士指出,以ChatGPT為例,其參數量預計達到17萬億。與此同時,GPU算力每兩年增長約3.3倍,而網絡互聯與存儲帶寬的增幅僅為1.4倍,形成明顯“剪刀差”。這一不平衡的發展使得網絡架構正成為AI算力釋放的關鍵制約因素,也預示著未來在底層互聯技術上存在巨大的優化空間,而智算中心網絡正面臨著“兩高兩低”的核心挑戰:① 高帶寬:大模型訓練涉及大量GPU間的數據交互和周期性存儲,單卡互聯帶寬需求可達14.4Tbps。② 高可靠:訓練周期通常以周甚至月為單位,網絡系統需保持持續穩定運行,任何中斷都可能導致訓練失敗或算力資源浪費。③ 低功耗:光模塊功耗占設備整體功耗已高達1/3,隨著接口速率與數量增長,控制互聯系統能耗成為系統設計的重要挑戰。④ 低時延:多GPU協同計算對時延極為敏感,任何微小延遲都會引發等待與算力浪費。研究顯示,每增加10μs時延,GPU利用率將下降1%至3%。

  從實際應用層級看,當前光互聯技術主要可分為三類核心場景:短距互聯:應用于數據中心內部的Scale-Out與Scale-Up架構之間,如光I/O、CPO、800G/1.6T可插拔模塊、LRO等。中長距互聯:如數據中心之間的DCI互聯,采用ZR/ZR+等相干光模塊。超長距傳輸:如跨區域骨干網及海底光纜系統,保障全球算力網絡的高效協同。

  面對上述挑戰,傳統以銅纜電互聯和電交換架構為主的短距互聯也已逐漸力不從心,智算中心光互聯正在呈現Scale-Out與Scale-Up雙向發展的架構趨勢,光互聯正成為突破算力互聯瓶頸、構建高效智算中心網絡的關鍵路徑。光互聯從Scale-Out向Scale-Up拓展打造智算中心“超級節點”

  當前主流智算中心多采用Scale-Out架構,通過網卡與交換機連接多個計算節點,適用于數據并行/流水線并行的相對低帶寬和時延不敏感的集合通信。但隨著訓練/推理任務規模擴大,張量并行和專家并行這些對高帶寬和低時延要求更高的集合通信,只有Scale-Up網絡能夠滿足,但要求Scale-Up網絡規模從8卡向百卡乃至千卡擴展,電互聯架構已嚴重制約卡間協同效率,日益成為性能瓶頸。

  張華博士指出,Scale-Up架構強調在物理層面將多塊GPU/XPU進行高密度直連,更好地匹配大模型對強耦合計算的需求。在此趨勢下,光I/O技術的引入突破了傳統電互聯在帶寬、時延與傳輸距離方面的限制,成為支撐Scale-Up架構的關鍵技術。相比銅纜,光I/O具備更大的帶寬密度和更低的能耗,很容易實現跨機柜的GPU穩定互聯。具體來看,光I/O賦能的Scale-Up網絡有以下顯著優勢:超大規模:GPU卡間傳輸距離可達上百米,支持Scale-Up網絡擴展至百卡乃至千卡級超節點。超高帶寬:單GPU節點可實現高達256Tbps的雙向互聯帶寬,是傳統電互聯架構的數十倍。超低時延:端到端傳輸時延可壓縮至百納秒級,顯著提升GPU協同計算效率。

  此外,OCS(全光交換)技術的引入,為Scale-Up架構提供了物理層的拓撲重構能力。通過光層級聯、動態切換與信號透明傳輸,OCS與光I/O的協同組合構建出可重構數據中心網絡(RDCN),為未來AI集群提供更高性能、更低能耗與更強彈性的新一代互聯底座。光I/O技術突破銅纜瓶頸加速走向規模部署

  在支撐AI大模型訓練的算力架構演進中,光I/O作為高密度、低功耗、低時延的關鍵互聯技術,正逐步替代傳統電互聯,成為構建Scale-Up網絡“超級節點”的核心方案。尤其在銅纜在帶寬、能耗與傳輸距離上的局限日益凸顯的背景下,光I/O的技術落地與產業化進展,正在推動AI基礎設施完成從“銅”到“光”的關鍵跨越。報告中介紹了多家領先廠商在光I/O技術上取得突破性進展:Ayar Labs推出業界首款符合UCIe規范的光子互聯芯粒TeraPHY,采用微環調制技術,可實現高達8.192Tbps的雙向帶寬,并已在富士通 A64FX 處理器上實現原生光口部署。Lightmatter在OFC 2025發布Passage L200光引擎,采用波分與空分復用架構,單芯片帶寬高達56Tbps,具備3D封裝與堆疊能力,定位于大規模AI集群的高密度部署。Avicena則以microLED技術實現6.4Tbps級光連接,具備低功耗、高可靠、耐高溫等優勢,且兼容CMOS工藝,展現出極強的工程化潛力。這些技術路線的并行推進,標志著光I/O從實驗室走向量產部署的關鍵拐點已至。

  全光交換OCS技術賦能靈活拓撲與系統彈性

  在傳統數據中心中,網絡拓撲通常為靜態結構,適配穩定的流量模式。然而,AI訓練任務具有突發性強、流量分布時空不均等特點,尤其在大模型并行計算中,不同階段對帶寬和拓撲需求差異顯著。這就要求底層網絡具備快速重構能力,以適應多任務切換與資源調度的靈活性。張華博士在報告中指出,全光交換(OCS,Optical Circuit Switch)技術,正是應對這一挑戰的關鍵手段。相比傳統電交換,OCS通過純光信號直接切換物理鏈路,無需進行電光轉換,具備高帶寬、低時延、低功耗與協議無關等優勢,可在毫秒級完成拓撲調整或故障切換,顯著提升網絡穩定性與彈性。在AI訓練集群中,OCS可根據模型結構與計算負載動態調整互聯結構,從而實現算力資源的最優利用。

  報告指出,OCS在當前智算中心中的應用正逐步走向成熟,典型代表如Google谷歌23年發表論文提到的TPU v4集群已全面落地基于OCS+光模塊的3D Torus網絡架構。該系統采用136×136端口OCS配合800G可插拔光模塊,實現4096張TPU的靈活互聯,并在以下維度上實現顯著突破:性能提升:可靈活重構物理拓撲,匹配不同模型通信模式,整體訓練性能最高提升 3.3倍;系統可靠性增強:在主機可靠性僅99%的條件下,系統仍能保持75%的算力吞吐能力。


  此外,Google谷歌在2025年Cloud Next大會上,宣布了最新智算集群Ironwood進展,已實現支撐9216張TPU卡間互聯,同樣基于OCS+800G光模塊方案,相比TPUv2,計算性能提升3600倍,展現出OCS在AI集群架構中的廣闊前景。可重構數據中心網絡(RDCN)光互聯光I/O + OCS協同構建“光速核心”

  面對AI大模型訓練對帶寬密度、資源調度與系統彈性的極致要求,報告提出以光I/O與OCS技術為核心,構建可重構數據中心網絡(RDCN)架構,實現物理層的靈活互聯與資源解耦。RDCN架構融合了橫向擴展的Scale-Out網絡與縱向擴展的Scale-Up網絡,通過OCS核心交換節點與GPU光I/O直連,實現從芯片到系統的全光互聯。以哥倫比亞大學提出的SiPAM硅光互連架構為例,OCS+OIO組合在訓練效率上相較傳統Nvlink平臺提升高達7.5倍,充分驗證了全光互聯在AI集群中的性能潛力。

  凌云光高可靠性OCS方案賦能RDCN落地部署

  在RDCN架構所需的大規模光交換領域,凌云光與HUBER+SUHNER POLATIS合作,提出基于DBS(DirectLight Beam Steering)技術的高可靠OCS方案展現出顯著優勢。相比傳統MEMS架構,DBS方案采用壓電陶瓷驅動準直器旋轉,實現空間直耦精確對準,具備更高可靠性、更優回波損耗、更低插損等特點,相比與高驅動電壓的MEMS方案,DBS平臺OCS在大端口數和長期工作穩定可靠性方面更具擴展潛力。隨著OCS端口規模持續擴大,系統對交換模塊的損耗及可靠性提出更高要求。正如Google谷歌在其論文《Mission Apollo: Landing Optical CircuitSwitching at Datacenter Scale》中指出,“相較于MEMS架構,基于壓電陶瓷的光交換技術在插入和回波損耗方面具備天然優勢,當MEMS方案在良率和可靠性上不易管理時,技術路線的選擇也可能隨之轉變。”這一趨勢也為DBS架構在下一代OCS系統中的廣泛應用提供了有力印證。

  凌云光OCS產品目前已支持最大576×576端口規模,典型插損僅2.7dB,回波損耗優于–50dB,并可靈活配置8×8起的多種矩陣規格。產品還具備暗光配置與雙向通道(Bidi)等特性,可顯著提升端口利用率和系統架構自由度,并且已通過Telcordia GR-63民用級、及MIL-STD-810G等嚴苛抗震與極端環境測試,該產品累計運行超 188億端口小時,穩定性與工程化水平均處于業內領先。

  聚焦光子集成與全光網絡持續推動AI網絡架構演進

  隨著大模型與智能算力持續縱深發展,傳統電互聯架構已難以滿足智算中心復雜的互聯需求。以硅基光電子集成為代表的光I/O技術,可支撐百卡乃至千卡Scale-Up網絡規模,成為下一代智算中心縱向擴展的熱點方案;光I/O+OCS全光交換實現物理拓撲的靈活重構,故障快速恢復、速率平滑升級,將成為RDCN(可重構數據中心網絡)不可或缺的底層支撐技術。正如Google谷歌工程副總裁在OFC 2025上所言:“我們正在見證新網絡架構的文藝復興(What we are seeing is a new renaissance for new architectures!)”。凌云光以光I/O和OCS為突破口,深耕光子集成與全光網絡領域,推動AI智算中心底層互聯架構重塑。未來,凌云光將繼續攜手合作伙伴,圍繞高密度、低功耗、智能調度等方向持續突破,加速邁向“光速核心”的智能互聯新時代。

內容來自:訊石光通訊網
本文地址:http://www.wwwhao6v.com//Site/CN/News/2025/06/10/20250610015019148149.htm 轉載請保留文章出處
關鍵字:
文章標題:報告解讀 | 光I/O+OCS引領智算中心Scale-Up網絡架構新變革
1、凡本網注明“來源:訊石光通訊網”及標有原創的所有作品,版權均屬于訊石光通訊網。未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網注明“來源:XXX(非訊石光通訊網)”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。因可能存在第三方轉載無法確定原網地址,若作品內容、版權爭議和其它問題,請聯系本網,將第一時間刪除。
聯系方式:訊石光通訊網新聞中心 電話:0755-82960080-168   Right

相關新聞

暫無相關新聞