
摘要
随着AI大模型对算力需求的激增,传统互联技术面临带宽、功耗和密度瓶颈。共封装光学(CPO)技术通过将光引擎与交换芯片集成,显著提升能效、带宽密度和信号完整性,成为下一代Scale-up网络的关键突破。然而,CPO的规模化应用需攻克热管理、精密制造和智能运维等挑战。新华三通过创新高可靠性设计、自动化生产及智能化运维方案,推动CPO从试点走向2026-2027年的规模商用,为算力集群演进奠定基石。
关键词
共封装光学(CPO)、算力集群、Scale-up网络、高可靠性设计、能效优化、智能运维
引言
在人工智能热潮以前所未有的速度重塑世界格局的今天,算力已成为驱动科技发展与产业创新的核心引擎。面对千亿乃至万亿参数大模型的训练需求,全局有效算力高度依赖于互联网络的性能。一个由超节点构成的网络,能显著降低通信延迟、提升带宽利用率。然而,当计算单元的数量与单体性能同步飙升时,传统互联技术在带宽、功耗与密度上均面临极限,成为制约算力规模扩张的关键瓶颈。在这一背景下,共封装光学(Co-Packaged Optics, CPO)技术,凭借其在系统能效、集成密度与信号完整性方面的革命性优势,正被业界普遍视为突破下一代Scale-up网络性能边界的关键技术路径,乃至驱动算力集群实现质变的核心引擎。
1 Scale-up互联困境,CPO成必然选择
在以NVLink、Infiniband等技术为核心的Scale-up网络中,链路性能直接决定了整个计算集群的效率和规模上限。但随着SerDes向单通道速率112Gbps(PAM4)及以上演进,电信号的衰减和符号间干扰变得极其严重。这形成了一道“距离墙”——高速电信号的传输距离被急剧压缩至米级甚至更短,极大地限制了机柜布局与集群规模。同时,为了补偿信号损耗,所需的功耗急剧攀升。在总带宽需求不断上升的情况下,电互联的能效比正在逼近物理极限。
可插拔光模块将电信号转换为光信号,是目前实现跨柜互联的主要方案。但当模块速率从800G向1.6T、3.2T迈进时,其功耗从12-15W飙升至30W以上。交换机前面板空间是固定的,端口密度的提升意味着单位空间内的功耗密度呈非线性增长,散热系统将面临巨大压力。此外,高密度端口背后海量的光纤布线和管理,也成为了工程维护上的噩梦。
为了解决上述多重困境,CPO技术逐渐从理论走向实践。它并非简单的技术迭代,而是一次深刻的架构革命。CPO的核心思想是:将原本位于面板上的光模块解构,并与交换芯片共同封装在同一基板衬底上。这一变化带来了颠覆性的优势。
◆极致能效:电通道长度从厘米级缩短至毫米级,大幅降低了高速电信号的驱动功耗,预计可节能30%-50%。
◆超高密度:光引擎可以紧密排列在芯片四周,通过2.5D/3D先进封装技术实现片超短电互联,甚至可探索硅光子集成方案实现更高密度,端口密度可提升2-4倍,未来通过多平面架构有望实现更高密度。
◆突破带宽瓶颈:极短电通道长度显著降低了高速信号的损耗和失真,允许SerDes采用更高阶的调制和编码方案(如PAM6、PAM8),并为未来更高速率演进预留余量。
因此,在追求极致性能与效率的下一代AI Scale-up网络中,CPO不再是“可选项”,而是支撑算力无限扩展的“必然选择”。
2 CPO迈向规模化落地的三大技术攻坚
尽管前景广阔,但CPO从实验室走向大规模部署,必须攻克以下三个维度的核心挑战。
2.1 应对“火山口”级别的热管理挑战
当交换芯片和多个光引擎被紧密封装在一起,其局部功耗密度堪比“火山口”。若散热不佳,将导致芯片结温飙升、性能骤降乃至永久损坏。传统散热方案在面对如此集中的高热流密度时已力不从心,而液冷则会增加客户使用成本,更可能引入漏液等风险。因此,需要极致优化风冷方案,充分发掘CPO高密度封装带来的内部空间优势。
2.2 精密光学与自动化制造的考验
一台CPO交换机内部集成了数十个光引擎和数千条光路。如何在生产线上快速、精准、低成本地将光从外置光源导入到光引擎,再与前面板接口低损耗连接,是横亘在整机量产面前的最大障碍。这不仅需要微米级的对准精度,更要求工艺具备高度一致性与可重复性,以实现规模化生产。解决问题的关键在于设计高可重复性光互联方案,并结合可插拔光纤耦合阵列设计,在保证性能的同时最大限度地提升生产便利性。
2.3 架构变革引发的运维重塑
这是CPO能否被终端客户广泛接受的最关键一环。在可插拔时代,一个端口故障只需更换模块即可,分钟级解决。而在CPO架构下,电光转换链路是设备内部的固定组成部分。一旦光引擎或其关联光路出现故障,可能意味着整台交换机需要下线、返厂维修,导致业务中断时间以小时甚至天计。因此,CPO需要构建一套与之匹配的、全新的智能运维体系,必须具备多维度实时监控和精准的多节点故障定位能力,将运维粒度从“设备级”细化到“通道级”,并实现预测性维护。
3 技术价值:实现Scale-up超节点的容量突破
诚然CPO技术通过缩短电互连距离,实现了显著能效提升。然而,最核心的技术价值,并不仅限于此。CPO的根本性突破在于通过物理层革新,极大地扩展了单个网络交换节点的互联容量与带宽密度,从而为更高层次的算力架构演进提供了不可或缺的物质基础。当单个交换节点的容量足够大时,就能连接更多计算单元,这使得构建低延迟、高带宽的单层 Spine网络成为可能。以往需要分层网络才能实现的集群规模,现在可以用更简单的拓扑、更少的跳数来实现,直接降低了端到端延迟和系统复杂度。传统交换机前面板的物理空间和散热能力严格限制了其所能支持的端口数量和带宽密度。而CPO交换机在能在1U空间内实现512条链路互联,大幅提升了带宽密度,更可通过多平面方案实现单节点四倍于电口交换机的超大容量。
因此,CPO的价值链条是清晰且递进的:它始于最底层的“芯片-光引擎”共封装,成就了“设备级”的带宽密度和能效突破,进而催生了“网络级”拓扑的简化,最终为“超节点化”的架构愿景铺平了道路。可以说,CPO是通过对单节点容量的极致放大,为整个算力基础设施的架构重构,奠定了坚实的物理基石。
4 关键技术突破与创新实践
面对上述挑战,新华三依托其深厚的研发积累,以“可量产、可运维”为目标,聚焦核心技术攻坚并在多个关键技术领域取得了决定性突破,致力于为客户提供端到端的成熟解决方案。
4.1 高可靠性整机结构设计
CPO交换机通过高密度光纤实现设备内信号的互联。光纤脆弱且对机械应力极为敏感,因而光纤的固定显得尤为重要。新华三结构设计团队在芯片基板,走纤盘等关键部位,增加加强筋和缓冲材料,形成局部的“安全区”,构建起光纤的“保护罩”。
特别设计的力矩可控光纤固定结构紧凑,可解决光纤安装时受到拉力损坏,或者光纤固定时被压坏的问题,保证光路正常传输。不仅能有效抵御运输振动,还能在设备运行时抑制风扇引起的共振,确保数千条光路在复杂工况下的长期稳定性。

图1 光纤应力释放架
4.2 高效集中热源散热方案
针对CPO的散热难题,新华三散热团队设计了集中热源风冷散热方案。该方案采用超大面积的均热底座,与CPO芯片直接贴合,配合高导热硅脂瞬间吸附并摊平热量。针对性设计大深宽比的散热冷管阵列鳍片,最大化有效散热面积。

图2 高流量前面板设计
将前面板蜂窝状散热孔间距做到极致,减少气流死区,保证通风效率同时,还能提高屏蔽效能。配备4+1冗余的高性能智能风扇,可充分带走芯片热量,保证交换机在复杂机房环境中也能良好运行。
效果对比:相较于传统方案,该优化设计能将核心热源的温度降低3℃以上,使设备在45℃环温下仍能满载稳定运行。

图3 主芯片散热优化
4.3 大规模光互联的自动化生产与测试
为实现CPO技术的规模化量产,必须对传统生产环节进行系统性革新。其核心在于攻克光学级高精度加工工艺,并推动自动化生产以保障产品一致性。具体而言,产线在千级洁净环境中,依托高精度三维显微检测与光纤阵列盲插技术,有效提升了光学组装的精度与效率,确保设备内部数千个光耦合点的性能达到高度一致。在后道整机测试环节,新华三自主研发的全光口并行测试系统,可对整机所有光通道的关键参数进行自动化批量筛查。这一流程不仅大幅减少了人工操作可能引入的误差与不确定性,也为CPO产品的高质量交付提供了可靠保障。
4.4 智能化运维与故障管理系统
对于终端客户而言,智能化运维与故障管理是决定CPO交换机能否落地的关键,新华三在该领域具有深厚的技术积累和丰富的应用经验,针对性的开发了CPO运维方案,客户获得的不是一个冰冷的“黑匣子”交换机,而是一个包含硬件、监控软件、运维流程在内的完整CPO解决方案,从而在享受CPO高性能的同时,无需担忧其可维护性。
◆精细化光引擎管理:每个光引擎内部都集成了丰富的监控功能,能够以极高的频率采集并上报发射/接收光功率、激光器偏置电流、温度、工作电压等数十个参数。新华三Comware系统对这些数据进行实时分析,实现通道级健康度评分和预测性维护,在性能劣化初期即发出预警。
◆精确故障定位:当设备出现异常时,系统不再是简单地报告“某设备某端口断链”,而是能够通过精细化光引擎管理方案上报的信息综合分析,故障精准定位。这将运维人员从复杂的物理排查中解放出来,平均故障修复时间(MTTR)预计可缩短50%以上。
4.5 标准化与生态建设
CPO技术的规模化部署离不开产业生态的协同。目前,OIF(Optical Internetworking Forum)已发布CPO接口标准(Co-Packaging-3.2T-Module),COBO(Consortium for On-Board Optics)联盟正推动光引擎的标准化封装尺寸。新华三作为核心成员,深度参与了ODCC(Open Data Center Committee)、OIF 、IPEC(International Photonics & Electronics Committee)、CCSA(中国通信标准化协会)等组织的CPO标准制定工作,推动光引擎、连接器、测试方法等关键环节的标准化,确保不同厂商产品的互操作性。同时,与上游光芯片厂商、下游云服务商建立联合实验室,共同验证CPO方案在真实业务场景下的性能表现,加速技术成熟和市场接受度。
5 未来展望
基于当前的技术发展节奏和产业链成熟度,我们可以清晰地预见CPO的发展路径如下。
◆2024-2025年:技术与生态预热期。主要厂商推出商用产品,并在头部云和AI公司的下一代集群中进行试点部署,解决早期问题,完善运维经验。
◆2026-2027年:规模化商用爆发期。随着标准(如OIF、ODCC、CCSA等)的完善、成本的下降以及运维模式的成熟,CPO将从超大规模AI集群的“奢侈品”,逐步渗透到大型云计算中心和高端HPC领域,出货量开始显著攀升。
届时,CPO将不再是一项前沿技术,而是如同今天的可插拔光模块一样,成为下一代数字基础设施不可或缺的核心支撑技术。它不仅是连接芯片与芯片的桥梁,更是连接现实世界与未来智能世界的基石,为人类社会迈向全面的数字化和智能化提供源源不断的强大动力。
6 结束语
CPO技术正引领一场深刻的数据中心互联革命。它通过架构层面的根本性创新,突破了制约算力规模扩展的物理极限。尽管在散热、制造和运维方面仍面临挑战,但业界的持续创新已为其铺平了道路。在未来几年,CPO必将作为核心引擎,驱动着Scale-up算力集群驶向前所未有的广阔疆域。



浙公网安备 33010802004375号