【第四十期】技術盛宴 | 聊聊下一代25G/100G數據中心網絡
發布時間: 2019-09-25


傳統的Chassis交換機已經成為DCN架構未來持續快速演進的阻礙,單芯片Box交換機是否能一統天下?

背景

數據中心網絡作為互聯網業務快速持續發展的重要基礎設施,已經從大家熟知的千兆網絡到萬兆網絡,再到今天已經規模部署的25G/100G網絡,網絡性能的快速提升,滿足了業務對帶寬的迫切需求。那么既然已經是25G/100G網絡了,為什么還要談所謂的“下一代25G/100G數據中心網絡”呢,這個“下一代”難道只是一個噱頭?

今天的數據中心網絡到底遇到了什么挑戰?

業務的“不確定性”對數據中心網絡技術的演進提出嚴峻挑戰。

大家都熟悉業務發展驅動了技術的不斷進步。但是從業務本身特點看,會發現業務是很難被看清,體現出很多的“不確定性”,包括業務內容的不確定性、業務技術的不確定性以及業務部署的不確定性。從基礎網絡的角度去看業務,其實是很難看得懂,也很難跟得上,這就對傳統被動演進的數據中心網絡提出了巨大的挑戰。

面對這些”不確定性”,我們的網絡到底應該如何做?如果還是被動地跟隨、演進,在時間和架構成熟度上很難保障,所以網絡架構設計必須尋找一個“確定性”的策略主動應對這些業務的“不確定性”,具體體現在以下幾點:

  • 網絡性能的持續提升,提供更高的轉發性能,包括服務器接入帶寬和上行帶寬,以及更低的網絡收斂;同時基于RDMA技術的超低延時轉發也是性能提升的重要方面;
  • 網絡穩定性的持續提升,特別是在高帶寬下,網絡穩定性更加重要,任何單點故障都會帶來巨大的損失。除了網絡本身組網的高可靠,還需要進一步提升運維能力,實現簡單、標準、統一組網;
  • 持續提高單集群服務器規模,降低每服務器的網絡建設成本。建議單集群可以支撐10萬臺服務器,核心在于實現流量的大集中,大大減少DCI的鏈路成本,提供更高性能的轉發能力和更低的轉發時延;

所以總結來看,未來網絡的架構演進,面對業務的各種“不確定性”,必須在網絡性能、穩定性、網絡規模上持續、快速迭代,走在業務的前面,擺脫網絡層面的被動局面后,才能有更多精力和能力去探索、研究更加有價值的、貼近業務的技術研究和創新。

正基于此,25G/100G數據中心網絡已經成為當前主流的網絡形態。


▲ 圖 1-1 傳統25G/100G數據中心網絡架構

如上圖所示,傳統25 G/100G數據中心網絡可以實現服務器25G或100G接入,通過三級組網可以實現大規模組網,單集群服務器規模可以超過5萬臺。基于T1+T2組合的Server-Pod可以像搭積木一樣靈活地橫向擴展,按需建設,整體看起來似乎已經很完美,如果不考慮未來帶寬升級400G/800G,這個架構還有必要再去折騰嗎?

為什么25G/100G數據中心網絡還需要迭代升級?

傳統25G/100G數據中心網絡之所以還需要進一步演進的關鍵就在于圖 1-1 中T3設備。

傳統大型10G及25G/100G數據中心網絡中,T3層次的設備類型是多采用了多槽架構的框式交換機,即Chassis。雖然Chassis在以往的數據中心及MAN(Metropolitan Area Network,城域網)中可以很好地服務業務,但是對于未來網絡架構持續快速演進、追求更大規模、更低成本、更快交付等層面,Chassis已經成為我們的障礙。


▲ 圖 2-1 Chassis交換機

Chassis交換機多芯片結構消耗更多的轉發時延

Chassis交換機采用的是多芯片的設計,在接口板卡和Fabric板卡上大多采用多個交換機芯片組合,實現更高性能和更高端口密度,如下圖:


▲ 圖 2-2 36個100G接口線卡

但是這種多芯片的結構會消耗更多的轉發時延,如下圖 2-3 所示:


▲ 圖 2-3 Chassis多芯片內部轉發示意圖

在上面的示意圖中有兩條流,無論是跨板卡轉發還是同一個板卡的兩個端口轉發,在Chassis交換機內部至少有三跳,理論產生的時延在10us左右。10us看似很小,但是業務是有感知的,因為基于RDMA的超低延時轉發業務,優化過的端到端延時是1us,所以多芯片結構消耗的延時很重要。

Chassis交換機阻礙每服務器組網成本的持續降低

基于傳統Chassis交換機組網時,相比單芯片Box交換機,每服務器的組網成本差異比較大,特別是在單集群服務器規模較小的情況。


▲ 圖 2-4 Chassis交換機和單芯片
Box交換機的每服務器組網成本分析
(藍色實線代表Chassis交換機,紅色實線代表單芯片Box交換機)

圖 2-4是模擬計算在不同規模的服務器組網下,采用Chassis交換機(576個100G接口)和單芯片Box交換機(128個100G接口)的每服務器組網成本差異,這里包括交換機、線纜等組件,進行歸一化的處理,方便直觀看到差異。

大家會發現,在單集群服務器規模2萬臺以下時,兩種交換機組網思路的每服務器成本差異很大,即使到了單集群10萬臺服務器規模,兩者的每服務器組網成本仍然有20%以上的差異。

備注1:模擬計算按照1臺Chassis交換機對標4臺單芯片Box交換機,保證總端口數相等,這種比較模型也有一定的假設,4臺單芯片Box交換機對標1臺Chassis交換機時不需要通過獨立的Fabric互聯形成一個整體。

另外,Chassis交換機組網帶來的間接成本高,且無法支撐未來持續迭代。

首當其沖的是Chassis交換機的高功耗阻礙基礎網絡的快速交付,且無法持續支撐。因為Chassis交換機多板卡、多芯片的特性,隨著接口速率及接口密度的升級,整機的功耗逐漸上升,整機576個100G接口的Chassis交換機(16槽)典型功耗已經達到20kW左右,如果再升級到全400G接口,整機的功耗預計達到50kW,這會導致機房的供電線路改造工作十分復雜,周期也非常長,甚至根本無法改造,這就嚴重影響業務對基礎網絡快速交付的要求,這就帶來時間成本、物料成本的大量支出。Chassis交換機的大功耗,還帶來散熱的問題,需要特殊設計,這也涉及成本的增加。

Chassis交換機體積更大,當前16槽位36口100G交換機高度最低可以做到21U,但是16槽位36口400G交換機高度超過30U,需要占用更多的機柜空間,也是成本問題;

另外,因為Chassis芯片的特殊性及產品結構復雜性,對于架構同學和運維同學來講,需要考慮的更加全面,自動化運維平臺可能也需要做特殊的考慮,大大增加技術學習成本和運維成本,不利于網絡簡單、穩定、可靠的設計目標。

Chassis交換機阻礙網絡架構持續快速迭代

Chassis交換機因為所采用芯片的特殊性、產品開發設計的高難度等問題,導致Chassis交換機自身更新迭代速率相對Box交換機慢,成為整網架構演進速度的短板。

Chassis交換機芯片與Box交換機芯片因為技術體系差異導致芯片迭代不同步。Chassis交換機通常采用專用的芯片,提供大容量的緩存及信元切片等特性,可以提供更強大的QoS能力,相比Box交換機采用的芯片,Chassis交換機采用的芯片架構、技術更加復雜,也就導致芯片的轉發性能、功能特性迭代的周期長。而Box級交換機芯片技術相比簡單,雖然不提供大緩存等能力,但是其轉發性能、功能特性迭代更快,更加輕量級,幾乎每1~1.5年可以升級一代。當Chassis交換機與Box交換機混合組網時,可能會出現性能及特性的不匹配,導致類似INT等新特性無法整網統一部署,造成一定程度的資源浪費。

Chassis交換機與Box交換機因為芯片差異及結構差異導致整機產品開發周期不同步。Chassis交換機一般由主控板、接口板、交換板等多個關鍵組件組成,整機多板卡+每板卡多芯片,很多功能需要依托集中式計算+分布式處理,同時需要實現跨板卡、跨芯片的表項同步等,導致Chassis產品的商業化開發難度和周期相比單芯片Box交換機要復雜N個量級,所以產品開發周期也非常長,這就會嚴重影響整體組網架構的迭代速度。


▲ 圖 2-5 Chassis交換機復雜的硬件結構

總結
通過對比Chassis交換機和單芯片Box交換機,從轉發性能、建網成本、運維成本、產品迭代等幾個方面,說明Chassis交換機在DCN內部已經成為網絡快速迭代的瓶頸。

總體上看,未來數據中心網絡如果要快速平滑迭代、升級,Chassis交換機的問題必須要解決,采用基于單芯片Box交換機組網,去框化將成為未來的主流。

所謂的單芯片Box到底長什么樣子?  

前面我們花了大量的篇幅說明Chassis交換機已經成為未來架構持續演進的障礙,需要基于單芯片Box交換機替代,實現去框化,那么這個可以替換Chassis交換機的單芯片Box交換機到底長什么樣子呢?

目前在傳統的DCN架構,如圖 1-1所示,在T3層次采用的就是Chassis交換機,一般采用16槽位,配置36口100G的板卡,整機可以提供576個100G接口,如下圖:


▲ 圖 3-1 銳捷網絡Chassis核心交換機RG-N18018-X

所以適合替代傳統Chassis交換機的單芯片Box交換機應該具備盡量高的轉發性能,可以提供更高密度的100G接口。根據當前交換機芯片產業界的情況,已經商用的最高單芯片轉發性能是12.8Tbps,整機最高可以提供128個100G接口,1臺傳統16槽位Chassis對等4臺單芯片Box交換機,具體如下:


▲ 圖 3-2 銳捷網絡單芯片
高密100G交換機RG-S6920-4C

以銳捷網絡的RG-S6920-4C為例,整機采用一顆高性能交換機芯片,提供單向12.8Tbps的轉發性能;提供4個可插拔的子卡,每個子卡提供32個100G接口,未來隨著400G光模塊的普及,可以更換8個400G接口的子卡,整機提供32個400G接口。

基于單芯片Box交換機+多平面組的下一代超大規模數據中心網絡

基于單芯片Box交換機的下一代25G/100G網絡架構到底是什么樣子?如下所示:


▲ 圖 4-1 下一代25G/100G超大規模數據中心網絡架構

整體概括來說,未來可以支撐規模持續平滑擴展的高性價比網絡架構就是正交多平面的架構。

備注2:這里給出的只是一個建議的組網模型和思路,針對具體項目,需要根據收斂比的規劃來調整相關平面和設備的數量

整個集群基于Leaf+Pod-Spine+Spine三級組成,其中Leaf+Pod-Spine組成Server-Pod,每個Server-Pod支持標準數量的服務器規模,作為標準化模塊,整網通過橫向擴容Server-Pod實現單集群服務器規模的平滑擴容,就像堆積木一樣。

多個Server-Pod之間的網絡通信,是通過與上層正交的多平面Spine設備進行互聯。

同時,在Server-Pod和Spine層級,都采用了高性能單芯片Box設備,即整機提供128個100G接口,整網交換機設備只有兩種規格,大大簡化組網、運維。

標準化、橫向可擴展的Serve-Pod

Sever-Pod由Leaf+Pod-Spine組成,對于25G網絡來說,Leaf層產品端口形態一般是48x25G+8x100G,收斂比是1.5:1;Leaf設備上行通過8個100G接口連接到本Server-Pod內的8臺Pod-Spine。

每個Server-Pod具體可以支撐多少臺服務器的連接?在Pod-Spine設備端口數量一定的情況下,就取決于Pod-Spine設備的收斂比規劃設計。

傳統網絡在Pod-Spine這個層面的收斂比設計一般為3:1,但是未來業務需要更低的收斂比,以更好地滿足計算與存儲分離、在線與離線混部帶來的超大東西向流量需求(跨Server-Pod);同時考慮Leaf層交換機收斂比一般都是1.5:1,所以建議Pod-Spine最低也能支持1.5:1的收斂比,通過計算,對于128口100G的單芯片Pod-Spine設備,采用80個100G端口下行,48個100G端口上行,最終收斂比可以做到1.67:1左右。但是考慮初期建設成本及網絡流量的增長是逐漸升級的,所以可以先采用2.5:1收斂比,即采用下行80個100G端口,上行32個100G端口,減少Spine層面設備數量,Pod-Spine設備剩余空閑的端口可以滿足未來擴展,進一步降低收斂比。

在這樣的規劃下,每個Server-Pod中,如果每臺服務器采用雙25G鏈路上行,那么單Server-Pod可以支持48x(80/2)=1920臺服務器,如果每臺服務器采用單25G鏈路上行,單Server-Pod可以支持48x80=3840臺服務器。

對于這樣的收斂比設計,如果單集群要支撐10萬臺服務器,只需要橫向擴展52個Server-Pod,如果要擴展支持更大的服務器規模,無非是Spine層面128口單芯片交換機設備劃分更多的下行端口連接更多的Pod-Spine,至于最大能支持多少Server-Pod,這又取決于Spine層面的收斂比設計。

統一、高性價比的多平面Spine

講到這里,我們會發現Spine層面設備在傳統DCN設計中采用的多槽位Chassis設備,但是在我們下一代25G/100G架構中,被單芯片128口100G的Box交換機替代,實現去框化。所以在考慮Spine層面的收斂比設計時,基于128口100G的設備規劃。

對于Spine層面,也是平行多平面設計,與Server-Pod呈現平面正交的連接,目的是保證為所有Pod-Spine之間提供最大化的冗余連接,整體基于ECMP實現相同的跳數,保證最短的路徑轉發,也簡化了網絡的規劃。

關于Spine層平面的數量,從圖 4-1中可以看到,Spine平面的數量其實對應每個Server-Pod中Pod-Spine設備的數量。按照當前Server-Pod的規劃,整網需要設計8個Spine平面,每個Pod-Spine上行對應一個獨立的Spine平面。

每個Spine平面有多少臺設備,取決于Pod-Spine的收斂比設計。按照之前Pod-Spine建議的收斂比設計,每個Spine平面需要規劃32臺Spine設備,那么8個Spine平面,一共需要規劃256臺的Spine設備。

之前已經提到,Server-Pod最終可以擴展多少,取決于Spine設備的收斂比設計,根據業內的一些經驗,同時考慮各集群之間的東西向流量,即DCI的流量,建議單集群Spine層面至少可以擴展支持到3:1的收斂比性能。按照單集群10萬臺服務器規模最終有52個Server-Pod,對于每個Spine設備來講下行方向至少分配52個100G接口,上行方向分配16個100G端口連接MAN設備就可以提供3:1的收斂比,未來可以隨著Server-Pod規模的調整和收斂比的需求,靈活調整上、下行100G端口的分配,整體來說,Spine的128個端口數量非常的充裕。

一個完整的數據中心不只是Leaf和Spine

我們之前詳細描述的內容只是針對一個DCN的最受關注的部分,即Leaf、Leaf-Spine及Spine,但是只有這三個部分是不完整的,如何實現集群之間的互訪、如何對外提供業務呢?所以對于一個整體的數據中心園區來講,整體架構應該是什么樣子?

針對整個園區來說,我們建議的完整架構是基于內網和外網分離的方式,建設超大規模的數據中心園區。


▲ 圖 4-2 基于單芯片Box交換機組網的超大規模園區架構

首先,內外網分離。外網就是連接運營商,實現最終用戶訪問數據中心業務的網絡。內網主要是實現數據中心內部服務器之間的東西向流量。采用內外網分離的組網建議,目的在于保證成本增加較少的情況下,讓網絡的邊界更加清晰,簡化網絡設備的數據規劃和管理,實現運維的獨立。
第二,建議以園區為單位建設一個集中、獨立的GW(Gateway,網關)區域,例如Load-Balance、NAT(Network Address Translation,網絡地址轉換)、專線接入網關等,這種設計的考慮一方面在于GW業務對服務器的配置和性能要求與普通業務不同,而且兩者對網絡性能的要求也有較大差異,獨立建設方便規劃、運維,獲得更好的收益。
第三,在園區一級建設MAN平面,實現同園區各集群之間東西向高速互聯,或者通過MAN連接其他園區。對于MAN平面網絡設備,如果確認對交換機大容量緩存等能力沒有強需求,則也可以考慮去框,采用基于單芯片128口100G的Box交換機建設,實現建設成本和運維成本的降低。這里假設了每個平面部署6臺,一共8平面進行建設。

之前園區的架構是一個三維立體的示意圖,為了方便大家理解,這里展示的是二維平面圖,具體如下:


▲ 圖 4-3 基于單芯片Box
交換機組網的超大規模園區架構(二維圖)

總結:基于單芯片Box交換機組網的收益

基于單芯片Box交換機+多平面組網,實現超大規模的下一代25G/100G數據中心網絡組網,其核心思想是在DCN內部基于單芯片Box交換機實現去框化,可以滿足未來網絡持續演進,無論是在網絡規模、成本、性能上都獲得更大的收益,具體收益總結如下:


▲ 圖 5-1 單芯片Box交換機收益總結

  • 超大規模

• 單Server-Pod支持的服務器規模2000臺,單集群可以支撐10萬臺服務器;

• 基于Server-Pod的方式按需靈活擴展;

  • 高性能

• 每臺服務器提供50Gbps上行帶寬(針對25G服務器接入);

• 每組服務器提供1.6Tbps上行帶寬,每個Server-Pod提供25.6Tbps上行帶寬;

• 提供更低收斂比設計;

• 端到端提供統一的RDMA業務承載,為業務提供高性能吞吐和超低時延轉發;

  • 高可靠

• 整網CLOS組網,無單點故障;

• 去Chassis,單點故障對業務影響更低;

• 采用Leaf“去堆疊”設計,滿足服務器可靠接入的同時簡化Leaf的運維管理;

  • 技術統一

• 統一芯片技術,基于一致的技術紅利為業務實現統一的能力支持;

• 基于統一架構能力,簡化運維,實現運維能力、運維經驗的融合,降低成本;

  • 低成本

• 大幅度降低硬件成本,相比同端口密度的Chassis交換機,單芯片Box交換機的硬件成本降低47%;

• 大幅度降低電力成本,相比同端口密度的Chassis交換機,單芯片Box交換機的功耗降低71%,不需要單獨的電力改造,也降低對散熱的需求,加快項目交付周期;

• 降低空間成本,相比同端口密度的Chassis交換機,單芯片Box交換機可以節約24%;

基于單芯片Box組網還有其他收益嗎?

通過上面的深入分析,在DCN內部采用單芯片Box交換機替換傳統Chassis,在擴展性、成本、可靠性等幾個方面都可以獲得較大的收益,但是這部分更多是底層相關的,對業務有更多感知的還在于芯片統一后,在架構及運維保障方面的能力集合,具體如下:


▲ 圖 6-1 開放統一的下一代互聯網數據中心能力地圖

如上圖所示,除了架設一張高性價比的超大規模數據中心基礎網絡,在面向業務層面的能力,包括提供RDMA業務端到端的部署,提供數據中心IPv4&IPv6業務雙棧;在此基礎上,基于全新一代的交換機芯片技術架構,提供統一、標準的運維能力,包括可視運維、統一運維、開放運維、智能運維。

因為篇幅原因,本文暫時不展開這些技術細節,敬請期待后續講解文章。

寫在最后

本文用了大量篇幅介紹下一代25G/100G超大規模數據中心,其中重要的關鍵點在于傳統的Chassis交換機已經成為DCN架構未來持續快速演進的阻礙,無論是在性能、成本、迭代能力上,都比高性能、高密度的單芯片Box交換機拉開越來越大的差距。

但是不是Chassis交換機已經沒價值了呢?單芯片Box交換機可以一統天下了呢?結果肯定是否定。畢竟Chassis交換機因為芯片的技術優勢,具有單芯片Box交換機無法比擬的超大容量緩存,配合Cell切片及VoQ可以提供強大的QoS管理能力,防止在帶寬瓶頸下業務突發導致的丟包問題。

所以通過目前業界大型互聯網公司的選擇結果上看,在集群內部,適合采用單芯片Box交換機替代傳統的Chassis交換機,但是在MAN及DCI骨干平面的建設,更多選擇Chassis交換機,關注大容量緩存能力及單機的端口密度。

可以大膽預測,未來業務對數據中心網絡的性能、規模、可靠性、成本有更高的需求,隨著單芯片Box交換機的性能進一步提升,未來單芯片性能達到25.6Tbps、51.2Tbps的Box會更多地應用在DCN組網中,甚至嘗試延展到MAN或者DCI平臺。

 

快彩投注技巧