DDC技术白皮书
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
目 录
随着大数据、云计算和人工智能技术的快速发展,数据中心遭遇了流量激增的挑战。如何快速处理这些流量,给数据中心的核心交换机带来了巨大的压力。
数据中心的核心交换机均为传统框式交换机。传统框式交换机通常是封闭式的、集中式的大型机箱(Chassis),就像一个“大铁柜”。其中所有的组件如主控引擎、交换板、接口板等都集中在一个柜子里。这种设计虽然集中且易于管理,但存在以下局限性:
· 扩展性困境
传统机框式交换机端口密度受限于机框槽位数量,一旦槽位用尽就必须整机更换或购买新机。
· 能效挑战
传统的大型框式交换机在交换芯片技术不断进步、交换容量不断增大(从100G迈向400G)的同时,也带来了功耗的显著提升。一个16槽位、全400G端口的框式交换机可能需要高达4到5万瓦的电力供应,这对许多老旧机房的设备升级构成了巨大挑战,尤其是当机柜的电力供应无法满足这一需求时。
DDC(Diversified Dynamic-Connectivity,多元动态联接)技术是一种创新的网络架构设计,它打破传统的集中式机框交换机设计,采用分布式解耦的方法来提高数据中心网络的灵活性和可扩展性。
· 物理层面:DDC将一台庞大的机框结构分解为多台盒式交换机。
如图1-1所示,DDC技术通过将传统的大型网络交换机拆分为更小的、独立的模块化组件,即盒式交换机,从而相当于将“大铁柜”分解成“积木”,实现了网络功能的分散部署。这些盒式交换机可以担任转发接口板或交换板的角色,它们被分散安装在多个机柜中,从而提供了更好的散热管理、功耗控制,并且克服了设备升级和空间扩展的局限,大大增强了网络部署的灵活性和便捷性。
图1-1 传统交换机和DDC设备对比
· 数据转发层面:DDC将多台盒式交换机设备之间的物理连接整合成一个Cell(信元)转发网络,使得业务报文在Cell网络内的转发就像在框式设备内部转发一样快速、高效。
DDC具有以下显著优势:
· 灵活扩展
如同积木可以自由组合,DDC允许在无需更换核心硬件的情况下,轻松添加新的盒式交换机,灵活支持网络的动态扩展,以适应不断增长的业务需求。
· 极速转发
DDC基于VOQ(Virtual Output Queue,虚拟输出队列)和Cell交换等先进硬件技术。VOQ技术能够保证数据在DDC内部转发时不丢包,Cell转发技术能够保证数据流在DDC内部转发时负载更加均衡,提升了DDC内部盒式交换机之间链路的利用率和吞吐量,充分满足HPC(High Performance Computing,高性能计算)业务对传输网络提出的低转发时延、低丢包率的严格要求。
· 超强可靠
DDC提供亚秒级故障恢复能力,可完美适配万卡AI集群使用场景。
· 绿色环保
DDC架构可以提高能源效率,因为它允许精确的容量规划和动态电源管理,从而降低了电力消耗和冷却需求。
综上所述,DDC可提供卓越的灵活性、扩展性和鲁棒性,是现代数据中心网络架构的优选方案。
图2-1 DDC物理架构
如图2-1所示,H3C的DDC方案将传统的集中式机框分布式解耦成两种类型的物理设备:
· NCF(Network Connectivity Fabric,网络交换单元)
NCF类似于框式交换机的交换网板,用于透传报文。如果报文的入接口和出接口分布在不同的NCP,则需要通过NCF将入口NCP收到的报文转发给出口NCP。
NCF上无业务接口,使用专属物理接口SFI(SerDes Framer Interface)接口来传输NCP之间的数据报文。
· NCP(Network Connectivity Processor,网络业务单元)
NCP类似于框式交换机的主控板加业务板,负责处理协议报文并转发业务报文。
NCP上的SFI接口用来连接NCF。
NCP上的业务口用来连接业务网,是整个DDC对外的输入、输出接口。
S12500AI系列设备的端口情况如表2-1所示。
表2-1 S12500AI系列设备的端口情况
H3C S12500AI系列 |
NCF |
S12500AI-128EP-NCFN |
· 128个OSFP800 SFI口 |
NCP |
S12500AI-36DH20EP-NCPN |
· 20个OSFP800 SFI口 · 36个QSFP 112业务口 |
|
S12500AI-18EP20EP-NCPN |
· 20个OSFP800 SFI口 · 18个OSFP800业务口 |
DDC组网中,建议每种类型的物理设备至少部署两台,从而提高网络的可靠性。
在DDC中,NCP之间的报文通过NCF透传,控制报文和数据报文共用传输通道,连接要求如下:
· 每个NCP均通过SFI接口直接连接至NCF,无需在NCP之间或NCF之间增加额外连接。
· 一台NCF上有128个SFI口,每台NCP上有20个SFI口,一台NCF满配可实现6台NCP的互联互通。
· DDC组网中,建议每种类型的物理设备至少部署两台,每个NCP至少和两台NCF相连,从而提高网络的可靠性。
图2-2 DDC连接拓扑图
当前DDC仅支持三层转发,本文仅描述DDC的转发原理。
DDC通过将框式交换机解耦为多台盒式交换机,继承了盒式设备灵活扩容、易维护升级的优势,同时分散了机房承重、供电和散热压力。但其核心技术挑战在于:如何确保业务报文在分布式盒式交换机间的转发效率达到传统框式交换机的水平?这一问题的解决依赖于DDC的创新数据转发机制。
如图2-3所示,传统Spine-Leaf架构通过业务接口构建了一张普通以太网转发网络,DDC基于SFI接口以及内部协议的交互,相连的NCP和NCF会自动组建Cell转发网络。在这个网络中,所有的NCP和NCF设备在转发平面对外相当于一台设备,网络内部的设备间则采用Cell转发方式进行数据转发。
· 传统Spine-Leaf架构的局限性
¡ 依赖五元组(5-tuple)的逐流ECMP负载均衡,容易因哈希冲突导致流量分配不均,尤其是在大流量(如大象流)场景下,可能造成部分链路拥塞而其他链路闲置。
¡ 为避免拥塞,通常需要预留额外带宽并调整收敛比,导致资源利用率降低。
· DDC的创新解决方案
¡ Cell交换技术:将报文切分为固定大小的Cell单元,并在多路径上并行转发,实现跨节点(NCP)的高效流量均衡。
¡ VOQ(虚拟输出队列)智能调度:NCP在转发前实时感知路径带宽,仅选择可用路径进行负载均衡,确保无阻塞交换,链路利用率最大化。
图2-3 传统Spine-Leaf架构数据转发VS DDC数据转发
DDC内部基于信元交换,对任意流量模型均无Hash极化问题,可实现Cell网络内部100%无阻塞传输。
ALL to ALL场景中,DDC数据传输性能有显著提升,对比业内方案转发效率平均提升2.5%。
· 在数据中心领域,ALL to ALL(全互联)通信场景指的是集群中所有计算节点(如GPU/CPU服务器)需要与其他所有节点进行高频数据交换的通信模式,这是AI训练、分布式计算等高性能场景的核心挑战之一。
· InfiniBand(IB)是一种高性能、低延迟的互连技术,主要用于数据中心、超级计算机和高性能计算(HPC)环境。它通过专用的硬件和协议栈,提供远超传统网络(如以太网)的带宽和效率,特别适合需要大规模并行通信的场景。
在Cell网络中,NCF通过Cell转发表实现数据转发功能。为实现对整个Cell网络的统一管理,DDC要求网络管理员在部署时需为每台设备配置唯一的成员编号(slot-number)。该编号在NCF和NCP的转发芯片中统一称为MODID。
NCF和NCP均采用专用转发芯片,其支持Cell转发的接口为SFI接口。当NCP接入NCF后,NCF能够自动发现NCP设备,获取其MODID并记录连接端口信息,进而在本地生成Cell转发表。该表维护MODID与出端口的映射关系,具体如表2-2所示。
表2-2 NCF上的Cell转发表
MOD(slot信息) |
出接口 |
MOD-ID 1 |
Int1 |
MOD-ID 2 |
Int2 |
MOD-ID 3 |
Int3 |
MOD-ID 4 |
Int4 |
为实现Cell网络的统一管理,DDC为每台NCP的业务接口分配全局唯一的Systemport标识。Systemport由设备成员编号(MODX)和端口编号(PortY)组成,格式为MODXPortY,表示成员编号为X的NCP上的Y号业务接口。该标识作为业务接口在Cell网络中的唯一寻址依据。
Cell网络的转发行为分为两种场景:
· 本地转发:当流量的入接口和出接口位于同一NCP时,采用与传统IP相同的本地转发机制。
· 跨设备转发:当流量需要跨NCP转发时,各NCP依据全局同步的转发表(如表2-3所示)完成报文转发。
表2-3 NCP上的Cell转发表
Prefix |
Interface/SystemPort |
远端封装索引 |
IP1/32 |
Int1 |
N/A |
IP2/32 |
MOD2Port1 |
EncapIndexX |
IP3/32 |
MOD3Port1 |
EncapIndexY |
IP4/32 |
MOD4Port1 |
EncapIndexZ |
那么,NCP上的Cell转发表是怎么生成的呢?原来,每台NCP设备出厂时预配置专用的CPU虚拟接口(OSF口),所有OSF口通过二层网络互联,形成统一广播域。DDC要求所有OSF口配置在同一IP子网,并基于此构建BGP EVPN网络,通过BGP对等体关系实现控制面互联。
如图2-4所示,转发表生成和同步流程如下:
(1) 表项生成阶段
当NCP 1接入Server 1时,NCP 1通过ARP学习和路由发现自动生成:
¡ ARP表项:记录IP1与MAC地址的映射。
¡ 路由表项:标记接入端口为MOD1Port1,并分配远端封装索引EncapIndexX。远端封装索引对应一些封装信息,这些信息是设备进行三层转发时,需要在报文中封装的信息,如目的MAC地址、VLAN信息等。
(2) 表项同步阶段
¡ NCP 1通过BGP EVPN路由将三元组信息(IP1、MOD1Port1、EncapIndexX)同步至全网NCP设备。
¡ 同理,NCP 4接入Server 2时,同步(IP4、MOD4Port1、EncapIndexY)信息。
¡ 每个NCP收到三元组信息后,在本地生成ARP、FIB表项,最终实现所有NCP上转发表项的同步。
(3) 全网一致阶段
最终,所有NCP均拥有全网的业务接口转发表项,确保任意跨NCP流量均可精准转发。
该机制保证了Cell网络中任意NCP设备都能正确处理本地转发和跨设备转发流量,实现网络的高效协同工作。
图2-4 NCP上的Cell转发表生成过程图
· 唯一标识(Systemport):避免端口冲突,简化管理。
· EVPN同步:通过标准BGP协议实现分布式转发表同步,支持大规模扩展。
· 远端封装索引(EncapIndex):解耦转发与控制面,提升硬件转发效率。
DDC基于Cell的转发技术适用于需要处理大量数据和高速数据传输的场景,如云数据中心、HPC、AI训练平台和大规模机器学习环境。
DDC采用基于Cell的转发技术,具有以下技术价值:
· 高链路利用率:基于信元的转发可以减少或避免因大流量负载不均导致的链路拥堵。不同于传统ECMP可能将大流量负载不均匀地分布在少数链路上,基于信元的转发确保即便是大流量也能被均匀地分布到所有可用链路上。这种方法减少了某些链路过载而其他链路处于空闲状态的情况,从而优化了整体网络性能。
· 降低网络拥塞:由于流量更均匀地分布,每条链路的负载更加平衡,从而降低了网络拥塞的可能性。这对于维持端到端低延迟和高吞吐量至关重要。
· 提高数据中心的弹性和鲁棒性:基于信元的转发提供了更好的流量控制,使得数据中心能够有效处理高流量需求和突发流量,增强了网络的稳定性和可靠性。
Cell交换技术的实现通常涉及以下几个关键步骤:
(1) 流量切分
当数据流进入数据中心的入方向设备时,它被切分成多个较小的数据单元,并封装上Cell转发信息,称为“信元”。这些信元是数据传输的基本单位,可独立于原始数据流进行管理和路由。Cell转发信息包括SystemPort、远端封装索引、信元的序列号等。
(2) 独立路由
每个信元都根据其头信息独立进行hash运算,然后根据hash结果被分配到不同的等价路径上。与传统的基于流的ECMP不同,这种方法可以更细粒度地控制数据流的分布,从而优化链路利用率。
(3) 信元重组
在数据到达目标节点前,各个信元在目的地被重新组合成原始数据流,以供最终处理或存储。
图2-5 DDC业务数据转发示意图
基于VOQ的拥塞控制技术广泛应用于大规模数据中心、高性能计算和大数据处理等领域,尤其适用于对网络性能和稳定性有高要求的环境。
· 无阻塞传输:通过精确的流量调度,确保数据包在DDC内部的无阻塞传输。
· 优先级调度:支持基于流量优先级的调度,确保关键数据流可以优先传输。
· 提高网络利用率:通过避免拥塞和优化数据流传输路径,提升网络的整体带宽利用率。
VOQ是一种用于拥塞控制的高性能队列管理技术。其核心机制是采用多虚拟输出队列对应多出端口,先申请带宽资源,再灵活调度队列完成流量转发。
图2-6 VOQ运行机制
如图2-6所示,VOQ的工作原理如下:
(1) Credit申请与分配
NCP启动后,会和NCF交互报文,同步DDC组网拓扑,并根据DDC出端口的数量创建虚拟输出队列,并生成如表2-4所示的VOQ表。
表2-4 NCP上的VOQ表
Systemport |
出接口 |
MOD2Port1 |
VOQ1 |
MOD3Port1 |
VOQ2 |
MOD4Port1 |
VOQ3 |
入口NCP收到报文,对报文进行分类和路由查找后,根据其出端口和报文中携带的优先级放入对应的虚拟输出队列。入口NCP不直接将数据包推送至NCF和出口NCP,而是通过VOQ机制与出口NCP协同工作,检查是否有足够带宽可供使用。
¡ 入端口的虚拟输出队列向出端口申请Credit,以通知出端口有数据待发送。
¡ 只有当出端口有足够带宽资源时,出口NCP才会向入端口的虚拟输出队列分配Credit。
¡ 如果出端口没有足够资源,则不会分配Credit给输入端口的虚拟输出队列。在没有Credit的情况下,虚拟输出队列将报文暂存在本地,等到申请到带宽资源后再发送,从而避免网络内部的阻塞和丢包。
(2) 数据转发
入端口在收到Credit后,根据VOQ表将数据包转发至NCF。这一过程涉及将数据包分割成信元,并在所有可用路径上进行负载平衡。
DDC数据平面转发流程如下(以Server1转发报文到Server4为例):
(1) 当Server1向Server4发送报文时,NCP1首先查找Cell转发表,获取Systemport和远端封装信息索引。
(2) NCP1基于SystemPort,将报文加入VOQ队列。如果存在可用Credit,则将报文切割并封装成Cell信元后,通过SFI口发送给NCF。
(3) NCF收到信元后,根据信元中携带的Cell转发信息查找本地Cell转发表获取出接口,然后将其发送给NCP4。
(4) NCP4收到信元后,根据信元中携带的Cell转发信息进行报文重组,获取二层报文头的封装信息,并为重组后的报文添加封装,从指定端口发送给Server4。
图2-7 Cell网络数据转发示意图
业界DDC方案通常采用中心化架构,由主控节点(NCC)集中管控,配合业务板(NCP)、交换网板(NCF)及可选管理交换机(MGT)组成三级架构。H3C通过突破性创新,采用控制转发一体化设计,精简为NCP+NCF两级架构。该去中心化方案在完整保留DDC功能的同时,大幅提升了系统的可靠性和可扩展性,使其更加适应云原生、分布式网络的演进需求。
表3-1 H3C DDC方案描述表
项目 |
H3C DDC方案 |
核心组件 |
· NCP(相当于业务板) · NCF(相当于交换网板) |
组网复杂度 |
组网复杂度 |
转发性能 |
相同性能(TTL-1),媲美传统设备 |
架构优势 |
· 去中心化架构 · 无单点故障 · 简化部署,降低成本 |
典型应用场景 |
云化/分布式网络、SDN 场景,追求极简组网 |
在开放生态建设方面,DDC技术基于标准BGP协议构建开放互操作框架,通过扩展BGP实现TEP(Tunnel Egress Point,隧道出口点)信息发布,建立跨厂商设备的统一通信标准。
新华三联合产业伙伴,基于人工智能网络开放调度架构(OSF)共同制定DDC核心框架标准,提供从需求分析、架构设计到技术实现的全栈标准化指导,加速技术生态落地。
DDC标准化设计具有以下技术价值:
· 打破厂商锁定:标准化接口实现多品牌硬件无缝协同,践行“硬件定义自由”。
· 开放共赢:推动产业从封闭走向协作,降低生态参与门槛。
图3-2 H3C参与DDC标准建设
人工智能数据中心(AIDC)通过异构并行计算技术,利用GPU/TPU集群及高性能网络解决大规模AI训练、推理及数据分析问题。得益于其强大的算力支撑和高效的资源调度能力,AIDC正成为现代数据中心的核心架构。
在AIDC应用场景中,DDC采用创新的网络架构设计,突破了传统框式交换机的限制,通过分布式解耦方式增强了AI计算网络的灵活性和可扩展性。该设计将大型网络设备分解为模块化的独立单元(如NCP和NCF),实现网络功能的分散部署,同时优化散热效率与能耗管理,满足AI任务对高带宽、低时延的严苛需求。
此外,DDC显著提升了AIDC网络的性能和可靠性,为AI算力集群的扩展提供了新思路。结合H3C的智能管控系统,可实现高效的资源编排与自动化运维,大幅降低管理复杂度。
DDC还采用了一系列高性能网络技术,如无阻塞转发架构、虚拟输出队列(VOQ)和信元交换技术,提供远超传统方案的转发效率与带宽利用率。这些技术能够均衡AI训练流量(如AllReduce通信),避免GPU间数据同步导致的网络拥塞,从而最大化提升分布式AI任务的整体性能。
图4-1 DDC在人工智能数据中心(AIDC)中应用的组网图