手册下载
H3C 800G以太网技术白皮书-6W100-整本手册.pdf (1.04 MB)
H3C 800G以太网技术白皮书
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其他公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
随着大数据、云计算、AI(Artificial Intelligence,人工智能)等技术的高速发展,全球数据流量持续呈现指数级增长。无论是在互联网服务、智能制造,还是在AI大模型训练等前沿应用中,网络对更高带宽、更低延迟、更稳定连接的需求已成为不可回避的趋势。在此背景下,800G以太网应运而生,作为新一代以太网技术的重要里程碑,它在400G的基础上扩展至800G数据传输速率,能够同时处理更多的数据流与网络连接,从而显著提升数据传输和处理效率,优化用户体验。
在大模型的训练与推理过程中,训练集群中的服务器节点需要进行海量参数的数据交换,规模可达数万台服务器并发运作,计算负载与数据吞吐量均呈爆炸式增长。此时,交换机的性能成为决定整体网络效率与响应速度的关键,而传统的400G以太网架构已经逐渐逼近性能瓶颈。800G以太网凭借更高带宽和更高端口密度,能够有效缩短训练周期、降低通信延迟,从而显著提升整体算力效率。
当前,数据中心作为全球数据存储与计算核心,正面临着流量激增与延迟敏感的双重挑战。800G以太网不仅提升了数据中心的吞吐能力,还能通过更高端口集成度和能效优化,满足高密度布线和大规模部署的需求。
新华三联合思博伦通信,完成了业界首个密度高达64个800G端口的大规模H3C 800G CPO(Co-Packaged Optics,光电共封装)硅光交换机测试,标志着商用800G网络设备迈入全新阶段。测试表明,800G CPO硅光交换机产品在整机交换容量、全端口100%线速转发、传输时延等关键指标上均实现了卓越的可靠性和稳定性。尤其是在云计算等对网络质量极为敏感的场景中,能够为算力加速、应用性能提升提供强大支撑。
在该测试中,800G CPO硅光交换机单端口传输平均时延仅1.085微秒,比上一代产品降低约20%,达到业内领先水平。CPO技术通过将光引擎和交换芯片装配在同一个插槽上形成共封装,大幅缩短了芯片到光模块的高频电信号互联距离,降低信道损耗并提升信号完整性,使大型AI集群中的GPU(Graphics Processing Unit,图形处理单元)计算效率提升可达25%。
未来,随着AI应用的进一步普及和计算架构的演进,800G乃至1.6T的高速网络将成为支撑超大规模分布式计算的核心技术。
800G以太网作为面向未来的高带宽标准,每秒可传输 800Gbps 数据,相较400G以太网带宽提升至两倍,为数据中心、AI计算、大模型训练以及超高清视频传输等领域提供不可替代的性能优势。其核心优势包括:
· 高带宽与高速率:提供800Gbps传输能力,支持51.2T交换容量,满足AI训练、数据湖分析、大规模云服务中对海量并发流的需求。
· 超高吞吐与极低延迟:通过优化架构与封装技术,将时延控制在微秒级别,保障HPC(High Performance Computing,高性能计算)和云桌面等业务的实时性。
· 降低成本:单位带宽功耗降低,减少运营TCO(Total Cost of Ownership,总拥有成本)。
· 高密度与大规模传输:在有限的物理空间或资源下,有效传输更多的数据,支持更广泛的网络拓扑和大规模部署。
在AI大规模训练场景中,800G的高带宽与低延迟特性直接影响GPU集群的利用率。例如,只要以太网上出现1%的丢包率,就可能导致计算集群性能下降50%,因此800G在端到端传输稳定性方面的提升对于算力效率至关重要。
虽然800G网络相比相同总带宽的400G网络具有成本优势,但是客户的升级过程仍然投入很高。同时,各种不同应用对设备分别有高密800G/高密400G/高密200G的需求,也很难用单一设备形态满足。
H3C 800G网络平滑升级方案主要采用向下兼容400G、向上平滑升级800G的思路,在满足业务需求的情况下,尽可能的保护客户投资、控制成本。H3C 800G产品的如下设计可以用于实现800G网络的平滑升级。
· H3C S9827系列交换机既可以满足高密100G/200G需求,也可以满足高密400G/高密800G需求。
· H3C S12500AI系列交换机使用DDC技术,提高了数据中心网络的灵活性和可扩展性,设备具有丰富的端口类型,可以根据需求灵活选择400G/800G。
未来,预计800G交换机配套的生态成本也会有较大幅度下降,届时800G网络的带宽升级为400G网络的2倍的同时,总体部署成本预计更低。同时,由于H3C的平滑升级方案尽力保护了客户投资,会比同类方案更具成本优势。
800G系统采用112G PAM4信号进行业务信息的传递。PAM4(4-level Pulse Amplitude Modulation,4级脉幅调制)是目前比较热门的高阶调制方式,已在高速互联领域得到了越来越广泛的使用。
在PAM4出现之前,NRZ(Non-Return-to-Zero,不归零编码)调制方式一直是主流,其中数据被编码为一系列的固定电压电平(低= 0,高= 1),每个符号周期可传输1bit的逻辑信息。随着传输速率的提升,NRZ调制在成本、光电转换带宽、外部干扰等方面的局限性越来越明显,已逐渐不能满足高性能网络的要求。
PAM4调制方式采用00/01/10/11四个不同的信号电平来传输数据,在每个符号周期可以表示2bit的逻辑信息。因此如果要传输相同的信号,通过PAM4调制的数据,波特率只有NRZ的一半;但是每个信号的幅度是NRZ信号的1/3。因此采用PAM4信号的系统对高速链路有更高的要求,否则会因为信噪比低影响通信质量。
图2-1 NRZ和PAM4的电平(NRZ采用0/1两种电平,PAM4采用00/01/10/11四种电平)
交换机系统内部高速链路大部分以PCB(Printed Circuit Board,印制电路板)为载体,包含了芯片封装走线、封装焊球、PCB过孔、PCB走线、光模块PCB走线等部件。提升高速链路性能主要有以下手段:
· 控制高速链路通道损耗,降低高速链路上某个或者几个组件的损耗。如果依靠控制PCB走线及链路其他部件损耗无法满足要求,可以加入PHY(Physical Layer Chip,物理层收发器)芯片,PHY芯片的作用可以简单理解为将收到的信号重发以改善信号质量,此方式会提高产品成本和时延。
· 控制高速链路通道串扰,提高信噪比,保证系统内信号质量。
H3C依靠深厚的技术积累和专业的设计、开发团队,主要依靠控制链路损耗和链路通道串扰实现了800G交换机产品的开发。在保证足够的系统设计裕量前提下,实现了无PHY设计,提升了产品可靠性及竞争力。
随着系统内互连信号速率提升到112G(PAM4)及以上,PCB的损耗越来越大,需要采用更低损耗的板材才能匹配设备的需求。H3C经过严格的电气性能和工艺可靠性测试评估:
· 引入多款Ultra Low Loss层级板材,满足112G(PAM4)系统PCB损耗要求;
· 采用PCB高速信号层叠归一化等技术,实现PCB走线损耗精细化控制。
PAM4编码的信号电压阶距是传统NRZ的1/3,导致相同速率和噪声下PAM4信号信噪比NRZ损失了9.5dB,这就对高速链路串扰设计提出了更高的要求。
H3C通过小孔技术/偏心孔技术等优化芯片扇出、连接器扇出,多线径串扰控制技术控制走线串扰,保证连接器配合界面兼容的前提下升级连接器性能,实现了系统112G PAM4的高速链路。
在800G以太网中,信号通过PCB走线、背板、连接器等传输介质时,会遇到频率选择性衰减问题。这主要由两个因素造成:
· 信道带宽有限:高速链路中存在固有的低通特性,高频成分衰减明显。
· 趋肤效应(Skin Effect)和介质损耗:随着频率升高,导体中的电流趋于分布在导体表面,有效横截面积减小,等效电阻增加;同时介质损耗正比于频率,进一步加剧高频能量衰减。
为解决上述问题,就需要预加重(Pre-emphasis)或去加重(De-emphasis)发射端均衡技术,在进入信道前进行频域补偿,使得经过信道后的接收信号各频率分量幅度更均衡。
(1) 预加重是在发射端对信号的高频分量施加额外增益,以补偿信道中高频成分的衰减。这种增益集中在信号的快速变化位置(即比特跳变点的上升沿与下降沿),从频域看是提升高频幅度,从时域看则表现为“跳变点瞬间幅度略高于平稳区域”。如图2-2所示。
(2) 去加重技术与预加重目标相同,但实现思路相反——它保留跳变位的幅度不变,降低非跳变位(连续相同比特)的幅度功率。这样,相对而言,跳变位包含的高频分量在整体功率中的占比提高,从而弥补信道对高频的衰减。如图2-3所示。
系统链路设计中,在满足链路信号质量的情况下,使用的器件越少,损耗越低。H3C通过选用低损耗PCB板材、PCB走线损耗精细化控制等手段,避免了使用PHY芯片、retimer芯片(对信号采样并重新发送,用于提升信号质量),进一步降低了系统功耗。
降低芯片功耗最行之有效的方法之一为芯片工艺升级。随着芯片的晶体管尺寸逐渐变小,泄露功耗(leakage power)在芯片整体功耗中所占的比重越来越大,因此降低泄露功耗对降低芯片功耗的作用越来越明显。影响泄露功耗的决定因素为晶体管栅长。栅长越小,泄露功耗越低。先进工艺芯片的晶体管栅长从7nm演进到5nm再到3nm,使芯片集成度大大提高的情况下,芯片单位功耗明显降低。
芯片整体功耗和电压呈正相关关系,降低电压可以降低功耗,但电压必须满足频率的需求。AVS(Adaptive Voltage Scaling,自适应电压调整)实现机制可以获取处理器性能(频率)需求,根据性能需求自动调整电压,从而在满足需求的情况下尽可能降低电压和整体功耗。
H3C采用先进工艺的光模块芯片。光模块芯片从以下两个方面提升集成度,降低功耗。
· 采用晶体管栅长为5nm或3nm的DSP。DSP(Digital Signal Processor 数字信号处理器)为光模块的核心芯片,功耗占比较大。类似设备芯片的工艺原理,芯片晶体管栅长越小,功耗越低。
· DSP与Driver、TIA(Trans-impedance amplifier,跨阻放大器)集成。
Driver、TIA为光模块中的重要器件,driver位于光模块发射组件,将电信号转换为对应的调制信号,驱动激光器发光。TIA位于光模块接收组件中的探测器前端,将光信号转换成电信号并将电信号初步放大。
此外,H3C也在测试无制冷EML(Electro-absorption Modulated Laser,电吸收调制激光器)芯片在光模块中的应用,未来可能通过采用无制冷EML芯片进一步降低光模块功耗。
EML为业界广泛使用的400G模块光器件,为光模块信号发射单元。EML通常需要配合TEC(Thermo-Electric Cooler,半导体制冷器)进行降温。但TEC会带来较大的功耗,无制冷EML即通过升级芯片工艺设计,避免使用TEC制冷,从而节省光模块功耗。
在早期数据中心互联中,一个10G光模块功耗仅约1W,对设备能耗影响极小。然而,随着网络速率从100G演进到400G乃至800G,光模块的功耗成倍上升——单个模块可达30W,占交换机或服务器总功耗的40%甚至更多。
根据行业统计,与2010年相比,2022年光通信设备总功耗已增长约22倍。这种能耗激增不仅推高了数据中心的电力与制冷成本,也对绿色低碳目标提出了挑战。为应对这一问题,业界探索了两条主要技术路线:
· CPO(Co-Packaged Optics,光电合封)——将光引擎直接与交换芯片封装在同一基板上,缩短电域传输距离,降低功耗与信号损耗;
· LPO(Linear-drive Pluggable Optics,线性驱动可插拔光模块)——通过取消模块内DSP/CDR芯片,依赖交换芯片侧的高性能SerDes(Serializer/Deserializer,串并转换器)完成均衡与误码补偿,实现低功耗、低延迟的可插拔方案。
LPO是一种以线性驱动为核心思想的可插拔光模块封装技术。它通过保留模块内最基本的高速模拟器件,包括Driver(高线性度驱动芯片)和TIA(Trans-impedance amplifier,跨阻放大器),并在这些器件中集成CTLE(Continuous-Time Linear Equalizer,连续时间线性均衡器)及部分EQ(Equalizer,均衡器)功能,从而在一定程度上补偿高速链路的信号衰减。
图2-4 LPO技术
如图2-4所示,与传统数字驱动方案不同,LPO模块将原本由模块内DSP(Digital Signal Processor)或CDR(Clock and Data Recovery)执行的重定时、色散补偿、抖动抑制等功能,转移到交换机ASIC(Application-Specific Integrated Circuit,专用集成芯片)或网络设备主控芯片的高速SerDes(Serializer/Deserializer,串并转换器)中。从而:
l 降低光模块端功耗和发热;
l 减少光模块内部延迟;
l 保持标准可插拔形态,易于替换与维护。
l DSP:在高速光模块中,DSP负责数字域信号均衡、色散补偿、码型预加重等功能,并内置FEC(前向纠错)以降低误码率,同时集成CDR功能提取时钟信息。虽然DSP对改善高速链路质量至关重要,但它也带来高功耗(400G 7nm DSP功耗约4W,800G更高)和较高成本。
l CDR:CDR的核心作用是从接收到的数据信号中恢复原始的比特时钟,并与数据比特流同步,以实现数据的准确判决。它关注的是时序恢复,并不直接提供色散补偿功能。
LPO技术的关键在于去除模块内DSP/CDR,依赖设备侧的高速收发器完成对应功能。主控芯片内的DSP每端口成本和功耗通常更低,且规模化更高效。
与传统光模块相比,LPO光模块的优势主要体现在功耗、成本和延迟三个方面。
· 低功耗:移除DSP/CDR可显著减少模块内功耗。例如,一个集成DSP的800G多模光模块功耗可超过13W,而LPO 800G模块功耗可降至约4W,节能幅度接近70%。
· 低成本:DSP占据了光模块成本的20%-40%,去除DSP后,这部分成本可有效降低。
· 低延迟:去除DSP省略了数字域信号处理流程,延迟可显著下降,这对AI集群训练、HPC(高性能计算)等延迟敏感场景尤为关键。
与CPO方案相比,LPO光模块的优势主要体现在部署灵活性、维护性和产业成熟度三个方面。
· 部署灵活性:LPO光模块可直接替换现有QSFP/OSFP模块,无需更换交换机硬件架构。
· 简易维护:与CPO方案需更换整个板卡不同,LPO技术仍保留可插拔特性,运维人员可在无需停机的情况下单独更换光模块,降低维护复杂度与布线影响。
· 产业成熟度:LPO光模块可沿用成熟的生产、测试、运维体系,但CPO需重新建立装配与测试标准。
CPO(Co-Packaged Optics,光电共封装)技术是将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装,从而在成本、功耗、能耗损失以及信号干扰等全方面提升的光互联技术。
如图2-5所示,传统技术下,是将各部件作为单独的模块,然后在PCB板上连接到一起。此种技术在设计超高速PCB板时存在较高的成本开销,同时增加了损耗。
图2-6 CPO技术
如图2-6所示,CPO技术利用硅基制造工艺,将交换芯片和光器件集成在一起,大大降低了损耗,并且突破了带宽瓶颈。
传统可插拔模块中,高速SerDes需驱动长距离PCB走线(>10cm),功耗高。
CPO将电通道缩短到毫米级,可减少约50%-70%驱动功耗。以800G交换机为例,CPO方案整机功耗可降低20%-30%。
CPO将光引擎集成封装,相对于传统接口,可降低物理接口尺寸,同等大小交换机面板上,接口可布密度更高,提升物理面板I/O(输入/输出)能力。
CPO技术相对于传统技术,减少了光模块内部的芯片转换,可降低时延,增加抗干扰能力。同时对PCB板材要求降低。常规交换机交换芯片到光模块之间的高速Serdes最长将达到13.5英寸,对于CPO交换机,交换芯片到光引擎之间的高速Serdes位于CPO芯片内部,走线长度可控制在1英寸以内,能极大改善112G和224G Serdes的SI挑战。
CPO通过将光学引擎与交换芯片深度集成,把传统可插拔光模块“推”进了交换机封装内部,从根本上解决了高速电互连的功耗和信号完整性瓶颈。它在800G/1.6T时代的优势明显,尤其适合高容量、低功耗、低延迟、高密度的网络架构,将成为下一代算力网络核心技术之一。
相较100G系统芯片,800G系统芯片Serdes链路由56G NRZ信号升级为112G PAM4信号的同时,链路数量也进一步增加,从而使得芯片功耗增高。芯片功耗及功率密度增加给散热带来了重大挑战,H3C从以下三个方面入手解决了800G系统的散热难题。
· 应用高导热性能材料:导热材料主要是解决将芯片内部的高热量快速导出到散热器上的问题。H3C通过分析和实测导热硅脂、导热硅泥、相变导热材料和碳纳米导热材料等不同类型的导热材料,不断研究导热效果、生产可加工性,同时联合第三方专业机构开展实验研究其长期可靠性,建立了完备的高性能导热材料选用平台,能够为不同芯片的散热需求匹配合适的导热材料。
· 采用高传热效率散热器:在风冷系统中,散热器设计是系统散热解决方案的核心关键。为了更好改善芯片散热,H3C联合专业散热器厂家定制开发并验证了热管散热器、VC(Vapor Chamber,均热板)散热器、虹吸散热器等高性能的散热器,并在业界率先推广了VC散热器的商用化。为了解决多芯片的散热均匀性,还创造性的使用了多芯片共用VC散热器的方案。
· 主机风道设计:H3C S9827系列以太网交换机采用高效的前后风道散热系统,风扇模块从端口侧进风,风扇面板侧出风。风扇模块具有体积小、散热快、可热插拔的特点,还可根据设备温度自动进行风速调整,能为设备提供强劲的散热降温功能。保证设备所产生的热量能够被及时排出,提高设备使用的稳定性。同时,这些设计也为平滑升级800G网络提供了强大的技术支撑。
800GE光模块主要有QSFPDD-800、OSFP800等形态,其中QSFPDD-800光模块因其向下兼容性好、可实施端口密度高而成为主流800G网络发展的路标。800G光模块的功耗相对400G光模块要高很多。以QSFP-DD光模块为例,单端口典型功耗16-17W(未来长距ZR光模块可能会升高至30W),相比400G单端口12W功耗高1.5倍左右,端口散热难度更高。H3C采用以下几种方式解决光模块的散热:
· 优化端口进风口面积:通过精细化设计端口位置面板的通风口形状和开孔间距增加端口进风有效面积。
· 改善光模块CAGE(光模块外壳结构)散热能力:CAGE增加合适的散热器,定制更高节距的双层CAGE来改善下层光模块的通风效果。
· 加强PCB对光模块的辅助散热能力。
H3C具备经验丰富的热设计团队,搭建了丰富的风扇选型库,利用先进高效的仿真平台进行建模评估,最终选用了适合800G产品的大尺寸、双转子高性能对旋风扇,保证了800G散热方案落地,分区散热通道,满足不同需求。
新机房建设过程中,建议重点考虑高压直流供电方案。相较常规DC供电方案,高压直流供电方案可以更好的控制传输损耗,降低供电传输成本,可以更好的满足800G网络设备和光模块的功耗需求。
H3C 800G核心设备H3C S9827系列供电设计具有如下优点:
· 支持交流、高压直流、常规直流供电方案。
· 支持电源N+N冗余供电要求。
光模块传输速率提升的技术手段,包括提升单路信号速率、增加并行光纤通道数、增加复用波长数。
· 改善调制方式(NRZàPAMàCoherent)可以有效提高单路信号速率;
· 增加光纤通道能进一步提升模块接口速率,同时带来光纤数量和成本的成倍增加;
· 增加复用波长数量需要增加激光器,模块的功耗和复杂度也会同步提升。
800G光模块在这些技术方向的基础上,综合实际市场需求时间、使用场景和技术实现难度,发展出了不同的封装形态和应用规格。
图3-1 光模块速率提升技术示意
说明:图形引用自以太网联盟(Ethernet Alliance)
800G模块的整体演进方向是高密度、低功耗、低成本。
· 随着电信号升级到112G PAM4,QSFP-DD模块由于高密度、低功耗,且向下兼容QSFP28,已成为市场应用主流。
· OSFP体积略大于QSFP-DD,工程实现和向上升级相对容易,也成为800G时代部分互联网数据中心的选择。
封装类型 | QSFPDD-800G | OSFP800 |
外观 | ||
规范协议 | QSFP-DD MSA | OSFP MSA |
电信号速率 | 112G PAM4 | 112G PAM4 |
长*宽*高(mm) | 128.21*19*15.3 | 158.4*22.93*13.1 |
功耗 | 16W | 16W |
兼容性 | 兼容CMIS | 无 |
· 光模块尺寸数据请以具体光模块为准,此处仅以标准尺寸举例。
· 光模块具体外观请以实际光模块为准,此处仅做示意。
· CMIS(Common Management Interface Specification,高速可插拔模块的统一管理通信标准)。
类型 | 电信号速率 | 光信号速率 | 光纤模式 | 光纤接口 | 波长范围(nm) | 传输距离 |
OSFP800-800G-VR8-MM850-MPO | 100G PAM4 * 8 lanes | 100G PAM4 * 8 lanes | MMF | MPO | 855 | 30m(2000 MHz*km) 50m(4700 MHz*km) |
OSFP800-800G-VR8-MM850-DMPO | 100G PAM4 * 8 lanes | 100G PAM4 * 8 lanes | MMF | MPO | 855 | 30m(2000 MHz*km) 50m(4700 MHz*km) |
OSFP800-800G-DR8-SM1310-DMPO | 100G PAM4 * 8 lanes | 100G PAM4 * 8 lanes | SMF | MPO | 1310 | 500m |
OSFP800-800G-2FR4-WDM1300-DLC | 100G PAM4 * 8 lanes | 100G PAM4 * 8 lanes | SMF | LC*2 | 每个接口四条通道 ·1271 ·1291 ·1311 ·1331 | 2km |
表3-1 H3C 800G光模块列表
外观图 | 光模块型号 | 中心波长(nm) | 接口连接器 | 接口线缆规格 | 模式带宽(MHz*km) | 最大传输距离 |
QSFPDD-800G-VR8-MM850-MPO | 850 | 1*MPO16/APC | 50/125µm MMF | 2000 | 30m | |
4700 | 50m | |||||
QSFPDD-800G-2FR4-WDM1300-DLC | 四条通道 ·1271 ·1291 ·1311 ·1331 | LC | 9/125µm SMF | - | 2km |
外观图 | 光模块型号 | 中心波长(nm) | 接口连接器 | 接口线缆规格 | 模式带宽(MHz*km) | 最大传输距离 |
OSFP800-800G-VR8-MM850-MPO | 850 | 1*MPO16/APC | 50/125µm MMF | 2000 | 30m | |
4700 | 50m | |||||
OSFP800-800G-2FR4-WDM1300-DLC | 四条通道 ·1271 ·1291 ·1311 ·1331 | LC | 9/125µm SMF | - | 2km |
光模块具体外观请以实际光模块为准,此处仅做示意。
图4-1 超大规模800G互联数据中心应用(三层架构)
参考图4-1部署数据中心接入、汇聚、核心三层网络架构:
· 用户通过800G/400G接口接入S9827 Leaf交换机;
· Leaf交换机S9827通过800G链路接入到Spine交换机S9827;
· Spine交换机S9827通过800G链路上联到Core交换机S9827。
图4-2 超大规模800G互联无损RDMA组网(两层架构)
服务器网卡通过400G/800G链路接入S9827 Leaf设备,Leaf设备通过800G链路上行到S9827 Spine设备,实现在一个数据中心内部署两层架构RDMA(Remote Direct Memory Access,远程直接数据存取)组网。
