ICC訊 隨著AI大模型訓練對網絡帶寬需求的指數級增長,800G交換機成為智算中心不可或缺的基礎設施。在這一技術演進過程中,線性直驅光模塊(LPO)技術通過創新性地去掉DSP芯片,實現了功耗降低27%、時延減少17%以及成本顯著降低的多重突破,已然成為下一代數據中心建設的關鍵技術。然而,LPO技術將傳統光模塊中的DSP功能轉移到交換機側,由此衍生出兩大核心技術挑戰:
首先,在信號完整性方面,取消DSP后,抑制信號抖動和噪聲的任務完全依賴于交換機本身來實現,這對112Gbps PAM4信號的傳輸質量提出了前所未有的要求,同時在800G超高密度端口配置下,還需確保所有端口在長期運行中的信號穩定性,這對交換機的硬件設計和制造工藝都帶來了嚴苛考驗;其次,在多廠商兼容性方面,要支持不同廠商的LPO模塊即插即用,這要求交換機必須具備智能化的參數自適應能力,這對芯片級的硬件識別和系統級的軟件優化提出了雙重挑戰。
紫光股份旗下新華三集團憑借其“架構級創新、智能化調優、多場景協同”獨特模式,不僅率先攻克了這些技術難題,更成功實現了800G LPO交換機的規模商用。目前,該解決方案已成功應用于多個互聯網、運營商客戶,特別是在AI算力基礎設施和大模型訓練等前沿場景中展現出卓越性能。這一成就源于新華三在高速信號系統全鏈路設計中的理論創新、硬件優化與器件協同能力的深度融合。
架構級創新:
攻克LPO的物理層挑戰
面對LPO技術帶來的嚴苛挑戰,新華三通過傳輸系統優化、串擾抑制方案和動態補償機制三大核心技術,構建起高速信號傳輸的完整保障體系。
在傳輸系統方面,新華三創新性地構建了完整的鏈路損耗控制體系。采用Ultra Low Loss級PCB板材,優化高速信號層疊歸一化設計,并通過系統鏈路全遍歷提取仿真,實現了112G PAM4信號傳輸損耗降低20%以上的突破。這一創新為LPO架構提供了關鍵的信號質量基礎。
針對高速信號傳輸中不可避免的串擾難題,研發團隊開發了創新的抑制方案。通過小孔技術和偏心孔技術優化布線密度,采用多線徑控制動態調整走線間距,同時采用低插損高速連接器,提升高頻性能,使全鏈路信噪比提升超過10dB。這些措施協同作用,確保了高速信號的穩定傳輸。
更為關鍵的是,針對取消DSP后信號補償的難題,研發團隊重點優化了動態補償機制:當鏈路中高頻信號發生不同程度的衰減時,發送端ASIC芯片針對性在SerDes發送端,提供不同程度的預加重(增強信號跳變沿幅度)或去加重(降低穩態信號電平);同時接收端SerDes動態調整CTLE均衡器(提升高頻增益)和DFE抽頭權重,實現信號損傷的快速補償。整套機制通過預訓練參數庫與硬件補償模塊的協同,在毫秒級時間內完成信號質量優化,既滿足LPO規范的眼圖要求,又顯著降低系統復雜度,展現了硬件精準控制與軟件智能調優的深度融合能力。
智能化調優:
從硬件補償到軟件自適應優化
在解決多廠商兼容性這一難題,新華三基于前述硬件層的信號補償能力,自主研發的智能調優系統以51.2T交換芯片平臺為依托,構建起完整的信號質量監測與調節體系。該系統通過硬件層的SerDes的可配置補償能力和軟件層智能算法的協同,構建兩級優化體系:ASIC芯片執行基于預訓練參數的信號整形(信號補償),上層軟件通過實時信道監測、動態迭代優化超過數十項電信號參數,實現對信號質量的精準調控,成功攻克了“各廠家模塊在不同端口參數調優難、異廠家一致性差”的行業痛點。
這套智能調優系統展現出強大的解決能力。研發團隊通過實時監測各端口的眼圖質量、抖動特性等關鍵指標,經過上千小時的優化與數百小時的專業驗證,對交換機驅動軟件和高速模塊寄存器中的高速電信號參數進行數百輪的參數調整,最終生成能夠滿足業務要求的最優參數模型,將端口誤碼率控制在業內領先水平,并集成至交換機系統軟件。模塊上電時,系統自動識別并配置最優電信號參數,確保低誤碼率運行,實現業務端口的穩定高效。
在實際應用場景中,該系統自動識別LPO模塊類型,并通過智能調優系統中預存的最優參數模型,快速匹配并應用對應配置,確保不同端口性能表現的高度一致。同時,該技術支持熱插拔場景,能夠在模塊更換后在可在毫秒級時延內完成參數自適應,保障業務無感知切換;在多廠商兼容方案方面,系統嚴格遵循CMIS和SFF-8636國際標準,實現了對各廠家的不同模塊規格、不同芯片方案、不同激光器方案、以及多種應用模式(一分二、一分四)等模塊的類型讀取,可靈活智能識別端口模塊模式,實現即插即用。這一突破極大降低了用戶部署的復雜度,為LPO技術的規模商用提供了關鍵支持。
多場景協同:
技術到商業閉環實踐
新華三精心打造了高效的光模塊協同體系,成功構建了完整的技術與商業閉環,通過三大核心支柱推動LPO技術規模商用。
在認證測試體系方面,新華三建立了行業領先的四維認證標準。該體系包含76項嚴格測試項目:本體認證重點驗證光電信號特性和診斷功能;適配測試全面評估與交換機的兼容性;結構測試確保機械強度;環境測試覆蓋從低溫到高溫的全溫度范圍。只有通過這一嚴苛認證體系的產品,才能獲得新華三交換機適配認證資格。
可靠性保障體系貫穿光模塊全生命周期。認證引入階段采用DPA分析和極端環境測試;生產階段實施包括ESS、老化測試、長纖測試等多重篩選;運維階段通過模塊到系統多級智能運維手段實現質量閉環。這套體系使光模塊年故障率控制在1000PPM以下,達到業界領先水平。
新華三建立了覆蓋模塊、系統、平臺三層的智能運維體系。在模塊層,除基礎診斷功能外,通過專有寄存器擴展支持環回測試等高級功能;在系統層,開發的參數管理系統實現診斷數據實時解析與配置管理;在平臺層,部署的健康管理平臺基于全生命周期數據構建預測模型,支持故障預警和壽命評估。結合AD-DC智算版的實時監控能力,可對功率、溫度等關鍵指標進行分鐘級故障定位,完整覆蓋"交換機+GPU服務器"端網光模塊監控場景,運維效率顯著提升。
基于在交換機硬件設計、智能調優系統和光模塊協同體系方面的全方位技術突破,新華三 800G LPO 交換機已在多個領域取得顯著成效:支持頭部互聯網企業數萬卡GPU集群高效互聯,降低運營商數據中心動態時延,承載AI智算中心數千卡GPU集群的訓練流量,提升了制造業核心系統吞吐能力。這一創新實踐不僅突破了AI算力瓶頸,更展現了我國在高端網絡設備領域的技術領導力。面向未來,新華三將繼續深化技術創新、完善協同體系,積極參與國際標準制定,為全球數據中心網絡的綠色發展貢獻更多力量。