ICC訊 2024年5月15日,由華為海思光電主辦,ICC訊石承辦的“2024芯?光論壇:芯光耀智算 互聯暢未來”會議在武漢光谷皇冠假日酒店火熱舉辦。本次大會匯聚了近500位光電子領域專業人士,探討光電技術的演進趨勢,共話全球光互聯產業的發展機遇。
5月15日上午主論壇《智能計算與光互聯技術》聚焦智能計算的爆發式增長及互聯增長和光電互聯的技術最新進展,探討了光互聯在智能計算時代的發展趨勢。來自華為昇騰計算、科大訊飛、中國信通院、中國移動研究院和華為海思光電的行業專家及學術大咖進行了深度的分析與探討。
余海波 華為武漢研究所所長
華為武漢研究所所長余海波代表主辦方致歡迎辭,隨著AIGC技術的快速發展,其產業規模未來將突破萬億元,大模型的發展將極大促進光互聯產業的發展。希望大家能通過今天的研討和交流,共同探討技術創新、產業發展和標準工作,共建健康的行業生態。
周斌 華為昇騰計算業務CTO
華為昇騰計算業務CTO周斌發表了主題為《AI的演進及下一代AI計算系統的思考》的精彩演講。
張驍 科大訊飛基礎設施總監
科大訊飛基礎設施總監張驍發表了主題為《大模型訓練網絡互連-從需求到挑戰》的演講。基于國產算力的扎實國產化積累,科大訊飛在2023年與華為進行軟硬件聯合攻關大模型國產化算力底座核心難題,構建了國內首個支持萬億級浮點參數大模型訓練的國產算力集群“飛星一號”平臺,形成了超大模型訓練算力集群優勢。
分享中指出在隨著大模型的進一步發展,算力規模化趨勢突顯,網絡的互聯速度將是關鍵技術,從機內通信到柜間通信,網絡帶寬都面臨著迅速的增長,需要超大帶寬、極致成本和極簡運維的聯接方案。 同時,大模型的長穩訓練需要穩定可靠的網絡及聯接方案。科大訊飛聚焦TOP問題,聯合華為、海思光電采用創新光模塊故障預測及分析方法,將任務影響環比下降約70%,大幅降低了光鏈路故障對訓練效率的影響。此外,功耗在數據中心的運營中也是不可忽視的一環,需要產業界在組網架構、通信方案、軟件效率等領域持續提升,支撐大模型產業的長期發展。
張海懿 中國信通院技術與標準研究所所長
中國信息通信研究院技術與標準研究所張海懿所長發表了主題為《智算中心網絡技術產業發展展望》的演講。我國出臺系列政策加快布局算力基礎設施,智能算力需求激增,高性能智算中心網絡建設成為熱點。2003-2023年近二十年間智能算力需求指數增長,以GPT為代表的人工智能大模型突破性進展激發了全球智能算力發展熱潮,千卡算力芯片構建的集群將成為千億參數大模型訓練的標配。如何加速構建高性能網絡以支撐智能算力發展成為業界關注的熱點。
張所長在演講中提到,智算中心架構涉及到的互聯包含了智算接入網絡、智算中心間互聯、服務器間互聯和片上/片間互聯多個領域,技術上都在快速發展,其中800G & 1.6T短距以太網將成為承載超高速算力互聯重要手段,滿足AI大模型等應用場景帶來的數據持續增長需求;而800G及更高速率的長距光傳輸方向正在加快技術標準研究,逐步啟動試點驗證:
· 標準化進展:800G和1.6T成為ITU-T、OIF、IEEE 802.3、CCSA等國內外標準組織的研究熱點,調制格式、映射技術、擴展C+L光系統、高性能FEC等是標準化的關鍵。
· 產業化進展:基于~130G Baud,16QAM調制的800G方案是目前技術研究和產品研發的重點,可以重用400G QPSK產業鏈。1.6T部署還需依賴200G Baud以上光電器件的成熟。
此外,800Gb/s和1.6Tb/s的光模塊研發應用也正在加速,報告中提到當前8x100Gb/s光模塊基本成熟,4x200Gb/s和城域800Gb/s相干光模塊是下一步研發的重點。
程偉強 中國移動研究院基礎網絡技術研究所副所長
中國移動通信有限公司研究院基礎網絡技術研究所副所長程偉強發表了主題為《高性能以太網助力智算中心互聯》的演講。
隨著智能算力需求的激增,承載網絡成為AI算力高速增長的瓶頸。以太網技術路線逐漸形成產業共識,高帶寬、高性能、高可靠和高安全的以太網助力智算中心互聯是提升智算中心網絡性能和整體算力水平的關鍵技術之一。
報告中提到800G將會是DCN和DCI發展的重要代際節點,因為AIGC推動全球云服務商加速部署800G商用網絡,以應對日益增長的數據傳輸需求,并優化數據中心基礎設施。數據中心DCN在向800G演進,同時DCI也已經開始啟動800G研究,800G以太網標準進展顯著,業界加快轉向800G應用。
關于中國移動800GE標準進展,程偉強介紹了中國移動積極參與并推動IEEE 802.3 df & dj工作組的800GE標準化工作,主導多項需求及標準文稿提案,并牽頭完成了800GE 20km新項目立項,這是中國公司在IEEE的首個以太網基礎標準立項,同時主導通過了20km/40km相關標準框架提案被工作組采納。
程偉強的演講總結聚焦高性能以太網能夠助力智算中心互聯,并倡議業界伙伴加強投入,提升智算中心網絡性能和整體的算力水平。
滿江偉 華為海思光電先進光電實驗室主任
華為海思光電先進光電實驗室主任滿江偉發表了主題為 《AI大模型下光電子互聯技術的機遇與挑戰》的演講。滿主任在演講中用數據和圖表再現了AI基礎設施的核心引擎——GPU的加速演進,從原來的兩年一代到現在的一年一代。配套的AI光互連光模塊需求也在快速增長。
為了適配Al對光聯接的需求,滿江偉指出光模塊的演進需要重點關注5大方向:大帶寬、低時延、低功耗、高可靠和智能化。海思光電聯合產業上下游合作伙伴,在洞察AI對光聯接的需求后,打造了星云智能光模塊的解決方案,全面承載AI計算需求:
大帶寬:依托自研光電芯片,通過系統級的規格定義和聯合優化,滿足AI互聯的帶寬需求
低時延:采用算法優化、線性直驅等多種方案降低時延,支撐大模型訓練效率提升
低功耗:綜合使用低驅EML、無TEC設計、高效率光源等技術,綜合降低模塊功耗
高可靠:通過架構極簡設計,提高系統可靠性,配合高可靠的光源方案,提升模塊長期工作的可靠性
智能化:聯合計算領域進行系統級優化,實現鏈路的故障智能定界、自愈消除、污損檢查等多項功能,大幅提升運維效率
總 結
隨著GPT等大模型的出現,對計算、訓練和推理的算力需求快速提升,推動了GPU和CPU性能持續提高,傳統電互聯和網絡逐漸不能匹配帶寬增長的需求,實現下一代智能計算需要新技術大幅提升互聯的容量。光互聯作為骨干網和數據中心網絡的關鍵環節之一,每一步都需要滿足苛刻的功耗、時延及智能等要求,跟上產業需求,配合上下游產業鏈解決當前帶寬增長不足的挑戰,共建繁榮的光互聯AI產業生態。