筑基煉己,提升網絡核心能力
近幾年來,騰訊DCI經歷了幾次重要的演進。網絡的本質是為業務提供支撐和服務,所以網絡的演進也應由需求驅動而非技術驅動。過去五年騰訊基礎網絡需求的最大變化,來自于服務對象的變化。基礎網絡所支撐的,從以產品導向為主的To C自研業務,逐漸變為以需求導向為主的、To B的公有云業務。兩類業務各自特點的不同,直接導致了對網絡需求的差異。客戶期望我們提供一張質量盡量好、成本盡量低的網絡,并且能夠根據需求隨時交付。相信很多網絡工程師都因為這樣的需求而產生過焦慮。
我們并不質疑需求的合理性,這個問題的矛盾實際是過去傳統網絡的演進無法匹配業務的發展速度而引起的,伴隨而來的是一次次運營事件和客戶抱怨。我們進行了深入的復盤和反思,總結了網絡核心能力三要素——質量,成本,效率,并針對這三個要素對DCI網絡進行了系統的優化:
對全網數通設備、傳輸設備、線路的性能和可靠性進行專項攻堅提升;
優化變更管理和監控流程,確保所有網絡操作一旦觸發異常可被第一時間定位并恢復;
網絡架構優化,推出全新DCI架構B2,采用多平面+分域網絡設計,集中式+分布式的SDN控制調度,簡化網絡的同時有效控制了DCI故障的爆炸半徑;
自動化運營能力提升,基于自研NetOps自動化運營平臺,通過配置建模、代碼化架構發布和管理、全流程自動化下發等方法,實現了對網絡配置、變更的完全可控;通過立體監控、優雅隔離、灰度恢復等手段實現了快速故障定位和自愈。
當我們信心滿滿的迎來2021年時,我們卻被一些“個性”的需求難住了。21年初,某云上客戶需要使用騰訊會議舉行一場重要的跨國視頻會議,需要網絡側為該用戶的會議業務流量在穿越DCI時提供最高的可靠性保障;某游戲加速類客戶提出騰訊云國內外多個邊緣數據中心到核心數據中心需要提供極低的網絡時延,這意味著DCI需要專門針對這類客戶提供定制化的網絡加速……我們突然發現網絡面對的需求,不再是單純的討論網絡整體的質量效率成本,而是需要針對不同客戶提供靈活的、定制化的網絡服務。網絡核心能力三要素也需要進行一個重要的補充——差異化服務。
分層解耦,開放靈活的網絡服務
騰訊云早在2018年就推出了提供全網互聯服務的云聯網(Cloud Connect Network,CCN)產品,為客戶提供云上私有網絡間(VPC)、VPC與本地數據中心間(IDC)內網互聯的服務,具備全網多點互聯、路由自學習、鏈路選優及故障快速收斂等能力。幫助客戶輕松構建極速、穩定、安全、靈活的全球互聯網絡。
云聯網對客戶的網絡意圖進行轉譯解析,拆分成不同的網絡任務執行,極大的簡化了客戶對于云上網絡的運維復雜度。但在物理網絡層執行時,受限于傳統數通網絡設備的種種限制(如相對固化的軟硬件實現,性能規格限制等),很難實現細粒度的差異化服務,而傳統的基于業務優先級的QoS能力,已經遠遠無法滿足公有云百萬級客戶的個性化需求。所以,我們需要一款對上可以與云聯網聯動,對下可以按客戶粒度進行精細化調度,并且直接參與報文數據轉發的,可以快速靈活迭代的網絡產品。符合這些特點的,就是一款騰訊自研NFV產品,我們把它命名為vDCI。
vDCI產品的誕生,也標志著騰訊DCI從SDN時代正式演進到了SDN+NFV時代。
這是一張vDCI產品的落地場景圖,vDCI在接收到從數據中心發出的流量后,通過Overlay技術為每個客戶構建一個獨立的專屬網絡平面,并在專用平面內基于客戶的不同業務類型進行精確匹配和靈活的按需調度,同時確保不同客戶間互不影響。
vDCI作為騰訊DCI的流量出入口,通過隧道技術在低時延、高質量、低成本網絡路徑間進行精細化的選路調度;同時也通過vDCI這個虛擬平面,將個性化的業務需求與物理網絡解耦,vDCI專注于滿足業務的靈活調度需求,底層物理網絡則聚焦于網絡性能和可靠性的持續提升。
上圖展示了vDCI產品的服務能力和高可靠性能力。首先是通過高速加密隧道,實現多種網絡資源的靈活利用,同時保證業務的安全性;通過vDCI的可編程能力,支持業務自定義調度標識,幫助客戶可以按照不同的業務類型進行差異化調度選擇;同時vDCI產品通過與底層物理網絡在控制面和轉發面的聯動提供靈活的多級調度,客戶可以在多個網絡路徑中,按需選擇時延最低、成本最低或質量最優的線路,甚至可以在不同的網絡中進行按需的調度和切換;最后通過騰訊自研SDN控制器和調度算法,實現客戶可自定義的、多維度組合的調度策略,比如“在滿足指定的時延范圍內,選擇成本最低的線路”,“在滿足指定可用率范圍內,選擇時延最小的線路”等等,以幫助公有云產品盡可能的滿足客戶個性化的網絡需求。
vDCI作為一款全自研產品,除了在差異化服務能力方面的提升,在高可靠性方面也做了豐富的設計。首先是通過vDCI產品自身發送亞秒級的高精度探測報文,基于每條隧道進行實時探測,一旦檢測到異常,可以按照制定好的運營策略(異常的判定條件和運營策略均支持客戶自定義或使用騰訊云推薦值),實現多級的保護切換。基于圖中展示的鏈路級、路徑級、網絡級三級調度能力,可按需進行端口級、設備級、路徑級、平面級、網絡級5級切換,以保證在異常場景下,仍然盡量滿足客戶的原始選路訴求。為客戶提供了多級快速故障自愈能力,這在傳統網絡中是非常難做到的。截至2021年底,vDCI產品已經完成了騰訊云全球Region的覆蓋部署,穩定運營超過6個月,為多種類型客戶提供了定制化DCI加速服務。
端網協同,打造極致網絡
如果僅僅將vDCI作為DCI的流量入口,則不得不為了實現少部分客戶的精細化調度需求,需要將全部用戶的流量都引入到vDCI,這可能會帶來額外的成本開銷。所以接下來vDCI將通過自研網絡協議,實現數據轉發面直接與業務網關系統的對接,實現端側的按需引流。后續隨著Smartswitch、SmartNIC的規模上線,vDCI可以以更靈活的方式與業務進行聯動,實現端網協同調度。這也標志著DCI網絡系統從控制面到轉發面的全面開放,讓上層業務可以靈活、高效的享用底層網絡提供的豐富的服務能力。
結語
最后總結一下騰訊DCI的演進歷程,首先通過B2網絡和自動化運營平臺,解決了業務對于網絡質量、效率、成本的最基礎需求;然后通過vDCI+SDN調度算法,實現了為業務提供差異化服務能力;接下來基于管理面、控制面、轉發面全棧自研的騰訊DCI網絡平臺,通過高精度網絡度量和數據建模與分析,進一步深入理解業務,更好的幫忙云上客戶產生價值。