AI in ALL    AI in ALL
AI in ALL
智能体驱动园区网络迈入自智化新时代
文 | 新华三集团网络产品线 张俊 龚大富

摘要

针对园区网络运维中复杂故障定位难、动态优化弱、LLM幻觉风险高等核心痛点,本文提出知识图谱(KG)、GraphRAG、强化学习(RL)三位一体的技术融合方案。通过结构化知识建模、精准推理引擎与实时动态优化的协同,实现园区网络从“规则化自动化”向“自智化闭环运营”的跃迁。基于新华三集团Cloudnet实测验证,该方案使多跳故障根因定位准确率、效率、措施可解释性显著提升,为企业数字化转型提供稳定高效的网络底座。

关键词

园区网络;智能体;知识图谱;GraphRAG;强化学习;自智化运维

1 园区网络运维的痛点与破局之道

园区网络运维面临的核心挑战

随着网络规模扩大与业务复杂度提升,运维正从“规则化自动化”向“智能体驱动的闭环自学习”演进,在此过程中,仍面临诸多挑战,包括:复杂故障还依赖人工经验;跨设备的系统问题难以高效解决;LLM幻觉及推理效率的制约智能体效果;环境差异及客户个性化需求难以得到高效适应。

为解决上述问题,新华三集团经过一系列探索和实践,提出了以下行之有效的技术路径。

第一,通过LLM生成和优化知识图谱(KG),基于GraphRAG 解决LLM的“可解释性与精准检索”问题。

第二,通过深度强化学习(DRL),基于环境反馈持续优化,改进模型、知识图谱、应用工具、策略、算法参数,攻克“动态优化控制”难题。

第三,将知识图谱、强化学习与LLM融合,显著降低大模型幻觉,更能精准定位复杂故障、自动优化网络参数,推动园区网络向“自智化”演进。

2 关键技术:三大技术构建智能运维核心

2.1 知识图谱(KG):网络的“关系大脑”

知识图谱是园区网络的“结构化记忆库”,以图结构存储网络核心实体(无线设备、有线设备、客户端、告警等)与关系(依赖、因果、修复等),像一张“网络关系地图”,精准捕捉多因素耦合的故障链路。

核心价值:传统文档存储无法捕捉“射频噪声升高→AP负载不均→低速率客户端增多→漫游跳变→用户体验下降” 这类多环节故障链,而 KG 能自然表达这种结构化关系,为故障定位提供“证据链基础”。

知识图谱构建核心流程图1。

图1 知识图谱构建的关键流程

图2是生成的无线领域知识图谱示意图,蓝色表示设备,红色表示故障,黄色表示故障排查方法,绿色为修复措施。不同实体间的关系,在连线上描述来表示。由于LLM的引入,知识图谱终中的实体和关系可以用更加丰富的自然语言来表示,其生产效率和知识表示能力,也得到了很大提升。

图2 生成的无线领域知识图谱示意图

2.2 GraphRAG:智能运维的 “推理引擎”

GraphRAG 是“图 + 检索增强生成”的融合技术,在传统 RAG 基础上增加图结构分析,专门解决园区网络“跨文档、多跳因果、设备依赖”的复杂问题。相对传统RAG的核心优势如表1所示。

表1 GraphRAG与传统RAG能力对比

园区GraphRAG的生成流程如下。

1)子图聚类:基于聚类算法划分无线干扰、漫游、安全接入等主题子图(300-2000 节点 / 子图)。

2)子图摘要:生成核心因果链、高频故障模式、修复动作成功率等结构化信息。

3)图基检索:针对用户查询(如 “A 楼 5G AP 波动”),筛选高价值证据节点与关系路径。

4)多阶段生成:整合局部子图答案,输出可追溯的完整解决方案。

通过多子图层层汇聚的方法,可以完成复杂系统的分解,有利于LLM根据需要进行相关知识的精准召回。

图3为基于LLM召回的知识图谱排障的示例,包括了AP速率低和AP覆盖问题的可能方案,排查步骤,修复措施。

图3 基于LLM召回的知识图谱排障的示例

2.3 强化学习(RL):网络参数的 “自动优化专家”

RL聚焦“高频、实时、非线性”的控制问题,通过动态决策模型(MDP)实现参数自动寻优。

相关应用场景如表2。

表2 强化学习技术典型应用场景

强化学习通过和实际环境互动,基于奖励持续提升原则,依托Cloudnet的大量在线设备和丰富的环境场景,持续探索更优的无线网络算法参数,包括AP发射功率,AP工作信道等,云管平台与强化学习的结合,有助于数据采集效率的提升和场景泛化能力的保证。

3 应用实践:通过GraphRAG+KG技术大幅提升智能体性能

3.1 排障准确率和响应时间性能提升

基于Cloudnet百万级设备的故障库、设备日志与专家标注数据,我们构建了对应的故障排查知识图谱,建立了排障智能体,采用知识图谱+LLM的GraphRAG+KG创新组合方案,相比传统方案优势显著,一方面大幅减少冗余上下文,可以提升模型推理效率;另一方面同步精准召回强相关知识,可以提升模型推理的准确度。基于数百个测试例的统计结果表明,LLM+GraphRAG+KG的方案相对传统LLM+RAG的方案,排障时延可以缩短60%以上,排障准确度提升了10%以上。

图4 LLM+GraphRAG+KG方案与传统LLM+RAG方案性能对比

3.2 可解释性增强实例

GraphRAG能输出清晰故障链路与证据,图5给出一个终端信号差的排障示例,清晰解释了终端发生弱信号的次数,是否曾经接入相邻AP,并给出漫游引导的建议。

图5 GraphRAG排障示例

4 技术价值,四大价值助力园区运维

◆复杂故障定位效率翻倍

多因素耦合故障(如漫游 + 干扰 + 负载联动问题)定位时间从小时级缩短至分钟级,无需依赖资深专家经验。

◆运维可信度显著提升

幻觉率显著下降,每一个决策都有结构化证据支撑,能够更好支撑运维团队对排障措施和效果的评估。

◆可持续迭代升级

运维系统采集的结构化知识可作为 RL 的输入特征,形成“数据→知识→优化→反馈”的闭环,网络自学习能力持续增强,更加适应环境差异和用户的个性化需求。

5 未来展望:自智化网络的趋势

“自动化运维”当前已经较为成熟,以规则化工具提效,奠定智能升级基础;园区运维当前正在进入“智能体辅助运维”,可基于 KG、GraphRAG 提供故障定位与决策建议,减少专家依赖;未来实现“自智化网络”,网络可自主感知、决策与优化。

未来的技术路线包括:模型内生图推理能力,无需外部图结构即可解析网络拓扑与故障链;自演化KG,图谱动态升级,自动吸收运维经验、校正错误并融合多园区知识;多智能体强化学习,设备搭载轻量智能体,实现“云-网-端”智能体的高效协助,从而实现E2E业务保障和体验优化。

◆技术融合:从“松耦合”到“原生一体化”

未来 LLM 将内生图推理能力,形成“Graph-native LLM”,无需外部图结构即可直接理解网络拓扑、故障传播路径,运维推理达到专家级水平。

◆知识图谱:从“静态”到“自演化”

KG 将成为网络的 “长记忆”:自动吸收运维经验、校正错误关系、融合多园区知识,结合时间维度形成“时序 + 因果”双维度图谱。

◆强化学习:从“单策略”到“多智能体协同”

无线设备、有线设备、终端将搭载轻量智能体,通过多智能体 RL 实现干扰协调、在线策略微调,结合安全强化学习避免网络震荡,最终实现“无需人工调优”的自治网络。

6 结束语

KG+GraphRAG+RL的技术融合,正在重构园区网络运维的核心逻辑。从“人工依赖”到 “智能驱动”,从“被动响应”到“主动预判”,我们致力于让园区网络成为“自学习、自优化、自修复”的智能体,为企业数字化转型提供稳定、高效、低成本的网络底座。

关闭