ICCSZ訊 世界領先的高性能計算、數據中心端到端互連方案提供商Mellanox(納斯達克交易所代碼: MLNX)今日宣布,互聯網搜索巨頭百度公司現已采用Mellanox端到端RDMA以太網互連解決方案為其打造全球頂尖的AI平臺。在全球計算機系統領域的頂級會議——第26屆操作系統原理大會(SOSP’17)上,百度提交了關于“高性能RDMA協議棧關鍵技術”的Poster。該Poster展示通過建立一種類Socket的RDMA通信庫,可將現有業務無縫遷移到高性能RDMA協議棧。百度是國內第一家大規模部署Mellanox 100G RDMA (支持RoCE v2) 以太網網絡的企業,Mellanox與百度精誠合作,引領了網絡技術的快速發展。
隨著人工智能和5G網絡的興起,“喚醒萬物,萬物互聯”的時代已經來臨。在人工智能領域,計算量需求的爆發式增長無疑對網絡提出了更苛刻的要求。百度AI算法具有高流量突發的網絡特征,而且對網絡的時延、帶寬以及吞吐量的需求也很高。百度類Socket通信庫底層采用Mellanox 100G RDMA以太網,使得百度AI集群的訓練速度獲得了大幅度的提升,AI訓練參數的同步時間也進一步縮短。
作為高性能互連網絡的核心組件,基于RDMA技術的Mellanox以太網解決方案在百度HPC集群和高性能存儲集群中也發揮了關鍵作用。百度云旗下的塊存儲服務——云磁盤(CDS)采用NVMe介質,其讀寫時延已低于傳統TCP網絡的通信時延,網絡因此成為了最大的瓶頸。結合25G RDMA以太網解決方案,百度對其底層的Baidu RPC(brpc)進行了改造。測試結果表明,改造后brpc的延遲可降低20% - 60%,QPS(每秒查詢率)可提升40% - 80%。相應的,云磁盤(CDS)的讀寫時延可降低10%-40%。
“無論是傳統的HPC應用還是新興的人工智能平臺,都離不開高性能RDMA網絡的支持”,Mellanox公司亞太及中國區市場開發高級總監劉通表示。“我們很榮幸與百度公司合作,為業界領先的AI開放生態架構提供支持,共同構建更高效的網絡協議堆棧,推動網絡革新,共同引領100G RDMA以太網大規模部署,打造AI平臺的網絡新引擎。”
目前,百度人工智能研究成果已全面應用于百度產品,讓數億網民從中受益;同時,百度還將語音、圖像、機器翻譯等難度高、投入大的領先技術向業界開放,以降低大眾創業、萬眾創新的門檻,進一步釋放創業創新活力。