手册下载
H3C 400G以太网技术白皮书-6W100-整本手册.pdf (823.88 KB)
H3C 400G以太网技术白皮书
Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
数字化产业的高速发展极大地影响了人们的生活,推动着社会进步。例如:云计算、虚拟化等新兴技术广泛应用,短视频、VR(Virtual Reality,虚拟现实)等娱乐方式大规模流行,自动驾驶、人工智能等新兴技术逐渐实现。这些新兴应用的发展对网络的计算能力、带宽和质量提出了更高的要求,预计未来每年数据中心带宽需要增长超过50%。
新兴应用的发展对网络流量的分布也带来了很大的影响。例如远程桌面、远程服务器等云计算应用需要把计算、存储、网络资源放在数据中心和资源池里,使得数据中心网络承载了越来越多的横向流量,需要进一步提升网络带宽。
目前,100G数据中心网络逐渐普及,400G数据中心网络成为升级的重要方向,也是数据中心网络进一步发展到800G或更高速率的基础。
H3C在400G产品的开发和应用实施方面处于业界领先地位。2020年,H3C和思博伦通信合作,共同完成了基于SRv6(IPv6 Segment Routing,IPv6段路由)组网,72个400G端口的全连接线速转发测试,测试结果充分证明了H3C 400G产品的优越性能。目前,H3C已经落地多个400G以太网商用项目。
图1-1 H3C S12500CR的400G SRv6组网测试
400G以太网具有如下优势:
· 高性能:带宽性能提升为原来的4倍,单个端口即可实现400G的网络带宽。
· 高端口密度:每RU的网络带宽从3.2~3.6T提升到了12.8~14.4T,极大地提升了网络性能,以满足各种应用的需求。
· 单位带宽功耗降低:减少运营TCO(Total Cost of Ownership,总拥有成本)。
· 网络复杂度低:与具有相同总带宽的100G网络相比,400G网络极大地减少了设备数量、光模块数量、光纤链路、机房走线架的数量以及机房面积,有助于简化网络结构,方便维护和管理。
虽然400G网络相比相同总带宽的100G网络具有成本优势,但是客户的升级过程仍然投入很高。同时,各种不同应用对设备分别有高密400G/高密200G/高密100G的需求,也很难用单一设备形态满足。
H3C 400G网络平滑升级方案主要采用向下兼容100G、向上平滑升级400G的思路,在满足业务需求的情况下,尽可能的保护客户投资、控制成本。H3C 400G产品的如下设计可以用于实现400G网络的平滑升级。
· H3C S12500R系列交换机采用无中板设计,可以通过更换业务板和网板快速升级网络性能,同时有丰富的业务板类型可以选择。因此,S12500R既可以满足高密万兆/高密40G/高密100G需求,也可以同机电平滑升级以满足高密100G/高密200G/次高密400G需求。
· 基于S12500R开发的S12500CR,装配9块网板可以满足高密400G需求,装配6块网板可兼容S12500R主机的所有业务板。
· S12500R和S12500CR可以共用网板,使客户可以灵活的调配资源或在网络升级时尽可能的利用已有资源。
· 盒式设备具有丰富的端口类型,接入层/汇聚层链路可以根据需求灵活选择100G/200G/400G,核心层链路选择400G。
未来,预计400G核心交换机配套的生态成本也会有较大幅度下降,届时400G网络的带宽升级为100G网络的4倍的同时,总体部署成本预计可以降至100G网络的2倍左右。同时,由于H3C的平滑升级方案尽力保护了客户投资,会比同类方案更具成本优势。
400G系统采用56G PAM4信号进行业务信息的传递。PAM4(4-level Pulse Amplitude Modulation,4级脉幅调制)是目前比较热门的高阶调制方式,已在高速互联领域得到了越来越广泛的使用。
在PAM4出现之前,NRZ(Non-Return-to-Zero,不归零编码)调制方式一直是主流,其中数据被编码为一系列的固定电压电平(低= 0,高= 1),每个符号周期可传输1bit的逻辑信息。随着传输速率的提升,NRZ调制在成本、光电转换带宽、外部干扰等方面的局限性越来越明显,已逐渐不能满足高性能网络的要求。
PAM4调制方式采用00/01/10/11四个不同的信号电平来传输数据,在每个符号周期可以表示2bit的逻辑信息。因此如果要传输相同的信号,通过PAM4调制的数据,波特率只有NRZ的一半;但是每个信号的幅度是NRZ信号的1/3。因此采用PAM4信号的系统对高速链路有更高的要求,否则会因为信噪比低影响通信质量。
图2-1 NRZ和PAM4的电平(NRZ采用0/1两种电平,PAM4采用00/01/10/11四种电平)
交换机系统内部高速链路的主要组成部分有网板芯片和业务板芯片之间的高速链路,业务板芯片到端口之间的高速链路等。当前高速链路大部分以PCB为载体,包含了芯片封装走线、封装焊球、PCB过孔,PCB走线、连接器、连接器过孔、光模块PCB走线等部件。提升高速链路性能主要有以下手段:
· 控制高速链路通道损耗,降低高速链路上某个或者几个组件的损耗。如果依靠控制PCB走线及链路其他部件损耗无法满足要求,可以再采用如下手段:
¡ 加入Phy芯片(Phy芯片的作用可以简单理解为将收到的信号重发以改善信号质量),此方式会提高产品成本;
¡ 网板和业务板之间的链路由PCB走线方案改为高速线缆方案,由于系统内部需要的连接数量很大,此方式对设备内部布线有很大挑战。
· 控制高速链路通道串扰,提高信噪比,保证系统内信号质量。
H3C依靠深厚的技术积累和专业的设计、开发团队,主要依靠控制链路损耗和链路通道串扰实现了400G交换机产品的开发。在保证足够的系统设计裕量前提下,全部业务板实现了无Phy设计,提升了产品可靠性及竞争力。
随着系统内互连信号速率提升到53G~56G(PAM4)及以上,PCB的损耗越来越大,需要采用更低损耗的板材才能匹配设备的需求。H3C经过严格的电气性能和工艺可靠性测试评估:
· 引入多款Ultra Low Loss层级板材,满足53G~56G(PAM4)系统PCB损耗要求;
· 采用PCB高速信号层叠归一化等技术,实现PCB走线损耗精细化控制;
· 通过系统链路全遍历提取仿真,保证系统所有链路满足设计要求;
· 结合插入损耗管控等后端管控技术,保证最终实际产品满足设计要求。
PAM4编码的信号电压阶距是传统NRZ的1/3,导致相同速率和噪声下PAM4信号信噪比NRZ损失了9.5dB,这就对高速链路串扰设计提出了更高的要求。
H3C通过小孔技术/偏心孔技术等优化芯片扇出、连接器扇出,多线径串扰控制技术控制走线串扰,保证连接器配合界面兼容的前提下升级连接器性能,使得全链路信噪比提升超10dB,实现了系统高速链路从25G NRZ到53G~56G PAM4的平滑升级。
系统链路设计中,在满足链路信号质量的情况下,使用的器件越少,损耗越低。H3C通过选用低损耗PCB板材、PCB走线损耗精细化控制等手段,避免了使用lite-PHY芯片、retimer芯片,进一步降低了系统功耗。
降低芯片功耗最行之有效的方法之一为芯片工艺升级。随着芯片的晶体管尺寸逐渐变小,泄露功耗(leakage power)在芯片整体功耗中所占的比重越来越大,因此降低泄露功耗对降低芯片功耗的作用越来越明显。影响泄露功耗的决定因素为晶体管栅长。栅长越小,泄露功耗越低。先进工艺芯片的晶体管栅长从28nm演进到16nm再到7nm,使芯片集成度大大提高的情况下,芯片单位功耗明显降低。
芯片整体功耗和电压呈正相关关系,降低电压可以降低功耗,但电压必须满足频率的需求。AVS(Adaptive Voltage Scaling,自适应电压调整)实现机制可以获取处理器性能(频率)需求,根据性能需求自动调整电压,从而在满足需求的情况下尽可能降低电压和整体功耗。
H3C采用先进工艺的光模块芯片。光模块芯片从以下两个方面提升集成度,降低功耗。
· 采用晶体管栅长为16nm或7nm的DSP。DSP(Digital Signal Processor 数字信号处理器)为光模块的核心芯片,功耗占比较大。类似设备芯片的工艺原理,芯片晶体管栅长越小,功耗越低。
· DSP与Driver、TIA(Trans-impedance amplifier,跨阻放大器)集成。
Driver、TIA为光模块中的重要器件,driver位于光模块发射组件,将电信号转换为对应的调制信号,驱动激光器发光。TIA位于光模块接收组件中的探测器前端,将光信号转换成电信号并将电信号初步放大。
此外,H3C也在测试无制冷EML(Electro-absorption Modulated Laser,电吸收调制激光器)芯片在光模块中的应用,未来可能通过采用无制冷EML芯片进一步降低光模块功耗。
EML为业界广泛使用的400G模块光器件,为光模块信号发射单元。EML通常需要配合TEC(Thermo-Electric Cooler,半导体制冷器)进行降温。但TEC会带来较大的功耗,无制冷EML即通过升级芯片工艺设计,避免使用TEC制冷,从而节省光模块功耗。
相较100G系统芯片,400G系统芯片Serdes链路由25G NRZ信号升级为56G PAM4信号的同时,链路数量也进一步增加,从而使得芯片功耗增高为100G系统的2.5倍左右。芯片功耗及功率密度增加给散热带来了重大挑战,H3C从以下三个方面入手解决了400G系统的散热难题。
· 应用高导热性能材料:导热材料主要是解决将芯片内部的高热量快速导出到散热器上的问题。H3C通过分析和实测导热硅脂、导热硅泥、相变导热材料和碳纳米导热材料等不同类型的导热材料,不断研究导热效果、生产可加工性,同时联合第三方专业机构开展实验研究其长期可靠性,建立了完备的高性能导热材料选用平台,能够为不同芯片的散热需求匹配合适的导热材料。
· 采用高传热效率散热器:在风冷系统中,散热器设计是系统散热解决方案的核心关键。为了更好改善芯片散热,H3C联合专业散热器厂家定制开发并验证了热管散热器、VC(Vapor Chambers,均热板)散热器、虹吸散热器等高性能的散热器,并在业界率先推广了VC散热器的商用化。为了解决多芯片的散热均匀性,还创造性的使用了多芯片共用VC散热器的方案。
· 主机风道设计:H3C前瞻性的推出了无中置背板的前后完全直通的OD(orthogonal direct,直接正交)系统方案,并创新的提高了业务板的槽位高度,增加了业务板的通风面积。直通的风道,更大的槽位高度,结合板内精细的疏堵结合的风道控制,给芯片散热带来了更大的通风量。同时,这些设计也为平滑升级400G网络提供了强大的技术支撑。
400GE光模块主要有CFP8、QSFP-DD、OSFP等形态,其中QSFP-DD光模块因其向下兼容性好、可实施端口密度高而成为主流400G网络发展的路标。400G光模块的功耗相对100G光模块要高很多。以QSFP-DD光模块为例,单端口典型功耗12W-15W(未来长距光模块可能会升高至20W),相比100G单端口3.5W功耗高4倍左右,端口散热难度更高。H3C采用以下几种方式解决光模块的散热:
· 优化端口进风口面积:通过精细化设计端口位置面板的通风口形状和开孔间距增加端口进风有效面积。
· 改善光模块CAGE散热能力:CAGE增加合适的散热器,定制更高节距的双层CAGE来改善下层光模块的通风效果。
· 加强PCB对光模块的辅助散热能力。
H3C具备经验丰富的热设计团队,搭建了丰富的风扇选型库,利用先进高效的仿真平台进行建模评估,最终选用了适合400G产品的大尺寸、双转子高性能对旋风扇,保证了400G散热方案落地。
400G网络设备的高功率密度特点及更高算力的服务器部署,常规风冷机房的散热瓶颈将降低机房设备利用率,同时常规风冷机房的PUE(PowerUsageEffectiveness,电源使用效率)也难以有效降低,新机房建设应考量液冷机房收益。液冷方案中,板式液冷对基建的影响相对较小,技术复用相对更好,建议作为客户重点考虑的液冷方案。
H3C也已经为设备的液冷解决方案做了充分的准备,当机房切换为液冷散热时,H3C具备快速推出液冷设备的能力。
新机房建设过程中,建议重点考虑高压直流供电方案。相较常规DC供电方案,高压直流供电方案可以更好地控制传输损耗,降低供电传输成本,可以更好的满足400G网络设备和光模块的功耗需求。
H3C 400G核心设备S12500R/S12500CR供电设计具有如下优点:
· 支持交流、高压直流、常规直流(-48V)供电方案。
· S12500CR的电源设计方案和核心路由器一样,采用了可靠性更高、灵活度更好的电源框方案,支持灵活切换供电方案,甚至可以支持混合供电。
· 采用高密供电设计方案,保证系统在高功耗的情况下仍能满足电源N+N冗余供电要求。
光模块传输速率提升的技术手段,包括提升单路信号速率、增加并行光纤通道数、增加复用波长数。
· 改善调制方式(NRZàPAMàCoherent)可以有效提高单路信号速率;
· 增加光纤通道能进一步提升模块接口速率,同时带来光纤数量和成本的成倍增加;
· 增加复用波长数量需要增加激光器,模块的功耗和复杂度也会同步提升。
400G光模块在这些技术方向的基础上,综合实际市场需求时间、使用场景和技术实现难度,发展出了不同的封装形态和应用规格。
图3-1 光模块速率提升技术示意
说明:图形引用自以太网联盟(Ethernet Alliance)
400G模块的整体演进方向是高密度、低功耗、低成本。
· CFP8支持25G*16路NRZ信号,且体积大,技术实现难度相对低,成为较早推出市场的封装规格,主要用于电信领域中的长距传输。
· 随着单板电信号升级到50G PAM4,QSFP-DD模块由于高密度、低功耗,且向下兼容QSFP28,已成为市场应用主流。
· OSFP体积略大于QSFP-DD,工程实现和向上升级相对容易,也成为400G时代部分互联网数据中心的选择。
封装类型 |
CFP8 |
QSFP-DD |
OSFP |
外观 |
|
||
规范协议 |
CFP8 MSA |
QSFP-DD MSA |
OSFP MSA |
电信号速率 |
25G NRZ/50G PAM4 |
50G PAM4 |
50G PAM4 |
长*宽*高(mm) |
102*40*9.5 |
89.4*18.35*8.5 |
100.4*22.58*13 |
功耗 |
12~18W |
12W |
12~15W |
每RU端口数量,带宽 |
16口,8T |
36口,14.4T |
32口,12.8T |
兼容性 |
无 |
兼容QSFP28 |
无 |
表3-1 H3C 400G光模块列表
外观图 |
光模块型号 |
中心波长(nm) |
接口连接器 |
接口线缆规格 |
模式带宽(MHz*km) |
最大传输距离 |
QSFPDD-400G-SR8-MM850 |
850 |
MPO(APC端面,16芯) |
50/125µm MMF |
2000 |
70m |
|
4700 |
100m |
|||||
QSFPDD-400G-FR4-WDM1300 |
1310 |
LC |
9/125µm SMF |
- |
2km |
表3-2 H3C 400G线缆列表
外观图 |
线缆类型 |
线缆型号 |
线缆长度 |
400G QSFP-DD电缆 |
QSFPDD-400G-D-CAB-2M |
2m |
图4-1 超大规模400G互联数据中心应用(三层架构)
参考图4-1部署数据中心接入、汇聚、核心三层网络架构:
· 用户通过100G接口接入S9855-48CD8D交换机;
· 接入交换机S9855-48CD8D通过400G链路接入到汇聚交换机S9820-8C;
· 汇聚交换机S9820-8C通过400G链路上联到核心交换机S12500R。
上述架构也适用EVPN VXLAN网络的Leaf、Spine、Border架构,接入设备作为EVPN VXLAN分布式网关Leaf,汇聚设备作为Spine,核心设备作为Border。
图4-2 超大规模400G互联无损RDMA组网(两层架构)
服务器网卡通过100G/200G链路接入S9855设备,S9855设备通过400G链路上行到S9820-8C,实现在一个数据中心内部署两层架构RDMA(Remote Direct Memory Access,远程直接数据存取)组网。