欢迎user
• RoCE部署,硬件成本降低40%+
• 400G超宽无损网络,弹性扩充
• 多租户算力隔离管理,灵活运营
• 运维效率提升90%+
宁夏中卫,素有“中国几何中心”之称,地处大漠与黄河交汇之地,远离东部喧嚣,却在数字时代悄然崛起。这里不仅建成了国家级新型互联网交换中心——西部唯一获批的国家级交换节点,还与国家一体化大数据中心共同构成“双中心”格局,撑起全国算力版图的关键一角。
在中国的几何中心建设顶尖的数据中心
中国电信宁夏数据中心起步于中卫,是连接西部算力资源与东部算力需求的重要桥梁。中心总建筑面积达6.8万平方米,具备完善的生态体系和丰富的云服务资源,配备20万核通用算力与7000PFLOPS智能算力,能够高效支撑多类智能计算业务。目前,数据中心服务范围覆盖全国,支撑700多个政务系统、100多家互联网医院、800所学校及300余家工业企业的计算与存储需求,为推动数字经济的高质量发展持续注入新动能。
作为中心的运营方,中国电信宁夏分公司(以下简称“宁夏电信”)的目标不仅是建成一座高规格数据中心,更希望将其打造为“东数西算”工程中全国一体化算力网络的核心枢纽和示范标杆。然而在AI时代,面对千卡、万卡级别的超大规模集群,如何真正释放算力潜能,让数据中心如同“算力出租车”般灵活高效地服务东部多行业客户,仍面临多重挑战。不仅要兼顾性能与成本,还需提升网络效率,减少资源等待带来的损耗。同时,云环境下的资源调度能力,以及智能化、可视化的运维体系,也成为提升整体运营水平的关键。
应对大规模集群的多维需求先进智算网络实现“既要又要”
“算力是基础引擎,网络则是连接一切的关键枢纽。”中国电信宁夏分公司东数西算事业部智算解决方案经理郭绅表示,“在迈向未来的路上,我们越来越清楚地意识到,网络不再只是算力的配套,而是决定业务效率和用户体验的关键。只有打破网络瓶颈,才能真正释放算力潜能,为未来的业务拓展留出空间。就在我们团队积极寻找突破口的时候,新华三带着智算网络解决方案来到这里,成为了我们的首选。”
◆创新RoCE部署,硬件成本降低40%-50%
在应对训练等任务时,节点间需频繁进行大规模数据交换,网络的延迟和丢包率直接影响整体计算效率与任务完成时间。传统做法通常采用低延迟、不丢包的InfiniBand方案。但InfiniBand属于封闭的私有技术栈,设备价格高昂,且对多租户管理和SDN功能支持有限。这意味着,数据中心将来可能面临成本高、架构封闭、可扩展性差等诸多挑战。
基于对成本、性能与长期可维护性的综合考量,宁夏电信携手新华三创新采用了基于以太网的RoCE技术,以此实现成本、性能、可管理性、可维护性等方面的兼顾平衡。相较于InfiniBand,RoCE网络在保持同等低延迟、高吞吐能力的同时,硬件成本降低了约40%–50%。同时,得益于开放的产业生态和成熟的供应链体系,设备供货周期也缩短至原来的1/10。
◆400G超宽无损网络,实现1:1上下行收敛比
在确定采用以太网RoCE技术栈后,随之而来的核心挑战就是如何设计一套既能承载高性能算力、又具备良好扩展性的网络架构。传统数据中心架构在面对高性能计算场景时,常常受限于高并发、大流量带来的传输瓶颈,延迟和丢包问题频发,直接影响训练效率。同时,传统架构扩展性不足,也难以灵活支撑从千卡到万卡的集群演进。
为此,新华三为宁夏电信量身打造了基于Spine-Leaf的智算网络架构,并采用H3CS9825系列400G高速交换机,实现Spine与Leaf层间上下行带宽1:1配置。这不仅有效解决了数据在集群内部高频传输带来的拥塞问题,也为后续算力规模的平滑扩容提供了充足弹性。
“过去我们最担心的,就是随着集群规模扩大,网络性能跟不上,影响整体训练效率。现在采用了这套全新方案后,延迟大幅下降,训练流程显著提速,我们对效率的担忧也随之彻底消除。”中国电信宁夏分公司东数西算事业部智算解决方案经理郭绅介绍,“更重要的是,这套架构不仅稳稳支撑了当前8K卡集群的运行,还具备出色的平滑演进能力,让我们对未来扩展到更大规模充满信心。”
◆多租户算力隔离管理,灵活运营
在日常运营中,宁夏电信数据中心需要将智算集群划分为多个虚拟资源池,以同时服务来自不同行业和地区的客户。这对网络与资源管理平台提出了更高要求:不仅要具备作业调度、租户计费等基础能力,更要实现资源的灵活分配与租户间的高效隔离,从根本上避免数据安全隐患和性能干扰。
针对这一挑战,新华三在整体方案中引入了基于以太网RoCE架构的ACL访问控制机制,作为多租户隔离与资源管理的核心支撑技术。通过ACL技术,中心能够对每个租户的资源、作业与数据进行独立管理,确保算力资源与网络的双重隔离,在保障安全的同时,显著提升集群的资源调度效率和租赁灵活性。升级后,资源申请可实现分钟级上线,租用与退租流程也大幅简化,既满足了客户的多样化需求,也为算力运营效率带来质的提升。
◆让“黑盒”网络逐步透明,运维效率提升90%+
在推进智算服务体系建设的同时,宁夏电信也积极探索面向未来的数据中心运维体系。借助SDN等技术手段,逐步实现了对前端节点与后端GPU集群互联状态的统一管理,能够实时掌握网络中的会话、流量、路径及负载分布情况,运维人员可据此快速完成参数调优与资源配置。
围绕运维过程中的延迟、抖动、故障、性能波动等场景,宁夏电信也构建起涵盖预警、分析、定位与决策的智能化机制,通过可视化手段将网络拓扑全面呈现,使得运维人员不仅能在大屏、小屏上直观掌控全局状态,更能精准锁定问题类型与位置,实现从“黑盒”到“可视、可管、可调”的跨越。经实际运行验证,网络故障平均定位时间缩短超过90%,运维效率和响应能力大幅提升。
之于中卫,黄河是魂,有了水,大漠才能焕发生机;同样,对于拔地而起的新型智算中心,网络亦是核心,它连接庞大算力与东西部资源,承载着今日的需求与未来的希望。在“东数西算”战略的引领下,中国电信宁夏分公司携手新华三,以领先的智算网络技术为基石,共同打造面向未来的数字枢纽,这不仅是一次技术创新的胜利,更是一段数字时代开拓者的故事。

