国家 / 地区
docurl=/cn/Solution/IndustrySolution/Media/Media_Technology/202008/1318818_30004_0.htm

数据时代DCN网络架构

【发布时间:2020-09-21】

新华三互联网系统部 王京

网络是IT基础设施重要的组成部分,是联接所有IaaS层资源对上提供服务的基础。在数据时代,云计算、大数据和人工智能的核心是数据,网络就是承载数据流动的高速公路。

从过去以严谨、规范著称的金融行业数据中心,再到现在引领技术潮流的互联网公司数据中心,数据中心网络近十余年的变化可谓是日新月异。

图1:网络技术快速更迭

大量的网络技术如雨后春笋般涌现,一个新技术还没有规模化应用和落地,就被另一个更优的新技术所代替。我也曾经花费过很多时间和精力去掌握Trill,这个当时被认为很有潜力,用于构建大二层网络的数据中心技术。从协议原理、报文结构、选路和转发、资源占用一直到Troubleshooting,屠龙本领练就的差不多了,最后却发现没什么地方去施展和发挥。层出不穷的协议和技术就像过眼烟云一般,如果再过十年,回看这段网络发展的高速上升期,相信每一名网络从业者都会有很多感悟。

如今,云原生技术发展迅速,已经有超过200个项目,应用的开发、发布、运行、运维也发生了改变。大量的应用系统采用云原生技术所构建,容器作为业务负载的最小单元,其特点是敏捷、一致性和具备极强的复制扩展能力。集群由数量众多的容器构成,数量级远高于VM。同时,更细粒度的资源分配机制和保证可靠性的分布策略,导致业务容器以及各种分布式系统组件间的跨Node通信和交互更加频繁,这些都依赖于外部网络提供可靠的端到端转发,同时对流量控制和可视化提出了更高的要求。

其次,随着大数据和人工智能技术的普及,基于此的推荐系统、图像搜索和识别、语音交互、人脸识别、机器翻译等被广泛应用。而且,大数据和人工智能已成为企业经营管理和应对市场竞争的重要武器,海量的数据被存储下来用于分析挖掘。从数据处理、模型训练(机器学习/深度学习)到上线服务,每个环节都依赖于强大的算力和海量的数据,对计算资源和存储资源的消耗与日俱增,促使数据中心建设向大规模、超大规模演进(截至2020年上半年,全球超大规模数据中心达到541个),与之配套的网络规模也越来越大,网络自动化和智能运维成为刚需。

最后,不得不提的是长、短视频、直播、VR/AR等视频流媒体近两年的爆发式增长,而且渗透到了新闻、教育、购物、社交、出行、游戏娱乐等各个领域,用户规模庞大、使用时长高,根据相关报告分析,到2022年视频流媒体将占到全球互联网流量的82%。伴随着5G终端的快速普及,用户对高质量视频、低延迟观看体验的期望不断提高,又进一步推升了对网络带宽的消耗。

图2:H3C基于Tomahawk系列芯片的四代产品演进

面对业务需求侧的变化趋势以及网络技术的快速发展,数据中心网络设备的迭代速度也随之加快。当前,数据中心交换机不到2年就更新一代产品,且每一代新产品的推出都提供近乎翻倍的性能,更高的吞吐、更大的表项、更多的特性,产品在网络中的角色定位也更有针对性。

图3:25G+ Ethernet Adapter发展预测

在服务器端网卡和光模块整体产业环境的推动下,数据中心接入链路带宽从10G->25G->50G->100G->200G演进,互联链路带宽从40G->100G->200G->400G演进。主力场景从2018年至今的25G接入+100G互联组合,将在2021年开始过渡到100G接入+400G互联组合。GPU场景将从100G接入过渡到200G接入。

图4:H3C基于Trident系列芯片的产品演进

综合前述背景,再来看网络架构。DCN网络架构的选择是受到业务需求、当前技术条件、设备成本、管理成本、人力投入等诸多因素的影响。没有一种架构可以驾驭所有客户的场景和需求,需要全面考量和平衡后进行选择。

第一种:适用于中小型、中型规模的数据中心

两级Clos架构是应用最早、最普遍的网络架构,现如今依然是很多行业客户的首选。整网设备只有两种角色,数据转发路径短,跨Leaf一跳可达,路径和时延具有很强的一致性。统一的接入方式也给上线部署和水平扩展方面带来了很大的便利条件,例如BGP协议的部署,策略的控制,日常维护和问题排查等。非常适合体量中小,运维人员编制少的企业。

两级Clos架构对Spine交换机的性能和可靠性要求很高,一般采用数据中心框式核心交换机产品。基于可变信元转发和VoQ调度机制,保证Spine设备内部的严格无阻塞交换,分布式大缓存的配置在应对流量突发等方面具备天然的优势。框式核心交换机有独立的控制平面、转发平面和支撑系统,而且采用冗余设计,整个系统在可靠性上远高于盒式交换机。

图5:H3C AD-DC应用驱动数据中心解决方案

两级Clos架构在和商用SDN控制器方案的适配上更成熟,结合SDN控制器可快速构建基于EVPN的网络Overlay方案,降低东西向和南北向服务链的部署难度,满足云场景下网络对VM、裸金属、容器等全形态计算资源联动的需求。

另外,该架构也同样适用于大型企业在各地部署的汇聚机房和边缘机房,用于构建边缘计算网络,缓解主干网络压力和降低访问时延。

图6:两级Clos双Spine示例

图7:两级Clos四Spine示例

Spine采用2台或4台框式核心交换机,Leaf交换机每台4上行,在保证3:1收敛的情况下(10G Leaf 4*40G上行,48*10G下行;25G Leaf 4*100G上行,48*25G下行),可支撑的服务器(双上行)规模分别为5000+台和10000+台。

由拓扑可见,两级Clos架构的网络规模也就是水平扩展能力,是受到Spine设备所能提供的端口总数限制的(设备台数*单机提供的端口数)。由于Leaf交换机上行端口数量是固定的(通常4~8个),因此Spine层交换机的台数也是受限的,不能持续增加。

图8:H3C数据中心框式核心交换机的演进

当前,框式核心交换机支持的业务板槽位数最多是16个,历史上曾经达到过18个(注:在十一年前的2009年,H3C推出的初代旗舰数据中心核心交换机S12518,具备9个交换网板和18个业务板槽位,是迄今为止的槽位巅峰)。在1U左右的空间内,单槽位支持的面板端口数普遍最多是48个。这样,整机所能提供的最大面板端口数为768个。

在物理空间有限的条件下,如何能进一步提升Spine交换机的接入能力,将两级Clos架构的网络规模扩展到极致,满足特定场景的需求,就需要用到端口拆分方案。

图9:单板+光纤配线箱

端口拆分是采用更高速率的端口拆分成多个低速端口使用,变向提高单槽位的端口密度,增加整机的接入能力。例如,在10G组网时代,采用更高速率的40G业务板,通过将1个40G端口拆分成4个10G端口使用。这样,一块36端口40G业务板可以拆分出144个10G端口,是一块48端口10G业务板端口密度的3倍。即将在2021年开始规模部署的400G、200G设备上,这种端口拆分方案也将会得到沿用,来解决诸多的网络互联需求。

第二种:适用于中型、大型规模的数据中心

两级Clos架构所支撑的服务器规模一般小于20000台,三级Clos架构的引入解决了两级Clos架构在网络规模上的瓶颈。三级Clos架构在两级Clos架构的中间增加了一级汇聚交换机(Pod Spine),由一组Pod Spine交换机和其下连的所有Leaf交换机一起组成一个Pod,通过Spine层交换机将多个Pod互连组成整个网络。增加Pod的数量即可实现网络的水平扩展,大幅提升了网络的扩展能力。同时,以Pod为单位进行业务部署,在适配多种业务需求、提供差异化服务、隔离性等方面,三级Clos架构更具灵活性。

图10:三级Clos示例A

图11:三级Clos示例B

三级Clos架构在每个Pod内部,Pod Spine采用4台或8台高密100G盒式交换机,Pod Spine半数端口用于上接Spine,半数端口用于下接Leaf,Leaf交换机每台4上行或8上行,典型场景如下:

A场景:Pod Spine采用4台64口100G盒式交换机(S9820-64H),Leaf交换机每台4上行,在保证Pod内3:1收敛的情况下(25G Leaf 4*100G上行,48*25G下行),单Pod可支撑的服务器(双上行)规模为768台。

B场景:Pod Spine采用8台128口100G盒式交换机(S9820-8C),Leaf交换机每台8上行,在保证Pod内1.5:1收敛的情况下(25G Leaf 8*100G上行,48*25G下行),单Pod可支撑的服务器(双上行)规模为1536台。在保证1:1收敛的情况下(25G Leaf 8*100G上行,32*25G下行),单Pod可支撑的服务器(双上行)规模为1024台。

由于高密汇聚交换机Pod Spine的引入,Spine层的框式核心交换机突破了个位数限制,可以部署数十台,Spine层框式核心交换机提供的总端口数可用于连接数十个Pod,整个网络可以支撑服务器规模超过10万台。

另外,通过调整Pod内Pod Spine交换机的上、下行端口比例,可以灵活定义每个Pod的收敛比,在满足不同业务需求的同时还有助于降低成本,避免不必要的浪费。

第三种:适用于大型、超大型规模的数据中心

基于盒式设备的多平面组网架构,是当前头部互联网公司采用的最新架构,用于组建大规模和超大规模的数据中心网络。其架构最早源于Facebook的F4,由于构建该网络的两代交换机6-pack和Backpack都是基于多芯片(12颗)设计的,一台设备12个控制平面在管理和部署上有诸多不便,而且成本也较高。F4演进到F16后,得益于芯片能力的提升,用于构建F16的交换机Minipack采用单芯片设计,功耗、成本和技术门槛大幅降低,方案也更加成熟,自此这种架构开始被国内互联网公司引入。

图12:基于盒式设备的多平面组网示例

《Introducing data center fabric, the next-generation Facebook data center network》和《Reinventing Facebook's data center network》两篇原文对该架构进行了详细的阐述。相比三级Clos架构,基于盒式设备的多平面组网架构将Spine层的框式交换机也替换为了盒式交换机,这样,全网各层设备均由盒式交换机组建。在设备连接上,不同于三级Clos架构中每台Pod Spine都需要和所有Spine层交换机Full-Mesh全互联,在新架构中将Spine层交换机分成多组(组数与每个Pod中Pod Spine交换机数量一致),每组中的Spine交换机构成一个平面(如图12,Spine层分成8个平面,用不同颜色进行了区分),每个Pod中的Pod Spine交换机只需要和对应平面中的Spine交换机Full-Mesh全互联。这样,整个Spine层可以连接更多的Pod,构建出超大规模的数据中心,支撑数十万级别的服务器,且随着盒式交换机性能的提升,该架构还可以持续的提升容量空间。

图13:Chassis & Box

一台满配48口100G业务板的核心框式交换机S12516X-AF与6台128口100G的盒式交换机S9820-8C,都可提供相同数量的100G端口(768个),但是采用盒式交换机方案在成本、功耗和散热上具有明显的优势,同时也免去了以往框式核心交换机对机柜空间和配电的特殊要求。

由于Spine和Pod Spine采用了相同的设备,功能特性一致,转发延迟一致,非常便于一些新功能的开发并在全网去部署应用。并且,整个网络从100G组网向200G、400G组网以及后续更高速组网的演进上能保持同步。另外,得益于单芯片设计,采用盒式交换机组建的整个Spine层在转发延时上要明显低于采用框式设备,进一步降低了跨Pod的访问延迟。

当然,该架构也引入了新的问题,Spine层设备的数量比采用框式交换机时的数量翻了多倍,而且盒式交换机的单机可靠性比框式核心交换机要低,这给网络管理和日常运维带来了很大的挑战。配套的管理平台、监控平台等都要能够适应这种变化,对网络运维团队也提出了更高的要求,如完善的人员分工,丰富的运维经验,有较强的技术能力和平台的开发能力等,通过对整个网络的把控来规避和降低设备和网络故障对业务的影响。

图14:gRPC+INT

以上我们分别介绍了三种当前最典型的DCN网络架构。如何才能更好、更高效的驾驭这些网络,就离不开网络可视化技术。网络可视化技术不但能够完成端到端的流量监控、风险预警、协助故障排查。通过数据积累和分析,还能够用来指导和优化数据中心的网络架构设计(模型、收敛比、POD规模等),是一种非常重要的技术手段。

网络可视化技术越来越主动、高效和智能。例如,通过gRPC可以更实时、高精度的从设备中采集所需的各种信息。通过INT或Telemetry Stream可以获取业务数据在网络中转发的路径和延迟。通过TCB可以对设备MMU进行监控,获取队列丢包的时间、原因、被丢弃报文。通过MOD可以检测报文在设备内部转发过程中发生的丢包,并能捕获到丢包原因及丢弃报文的特征。通过Packet Trace可深入转发逻辑,模拟报文在芯片中的转发,确定问题根因等。

利用大数据和AI技术将网络中采集到的各类信息进行存储、分析和预判,实现从数据训练模型,用模型洞察网络。

图15:Smart NIC

未来,智能网卡将是DCN网络中重要的组成部分,具备可编程能力的智能网卡在释放CPU资源、实现高性能转发的同时,还拥有隧道封装/解封装、虚拟交换、加解密、RDMA等功能,随着业务场景和需求的增加,越来越多的数据平面功能将由智能网卡来完成,打破了基于服务器或交换机各自实现的局限性,有望做到性能、功能和灵活性的完美平衡。智能网卡将接替Leaf交换机作为DCN网络的最末端,由此,网络架构、协议部署、可视化技术等也会因智能网卡的引入而发生改变,更利于端到端的性能优化和服务保障、端到端的探测和监控、SRv6等新技术的应用,未来的DCN网络将会更上一个台阶,为不断丰富的上层业务提供更稳定、更高效、更灵活的网络服务。

联系我们 联系我们
联系我们
回到顶部 回到顶部