《数字化领航》AI技术专刊

AI in ALL

智能体驱动园区网络迈入自智化新时代

文 | 新华三集团网络产品线张俊龚大富

摘要

针对园区网络运维中复杂故障定位难、动态优化弱、LLM幻觉风险高等核心痛点，本文提出知识图谱（KG）、GraphRAG、强化学习（RL）三位一体的技术融合方案。通过结构化知识建模、精准推理引擎与实时动态优化的协同，实现园区网络从“规则化自动化”向“自智化闭环运营”的跃迁。基于新华三集团Cloudnet实测验证，该方案使多跳故障根因定位准确率、效率、措施可解释性显著提升，为企业数字化转型提供稳定高效的网络底座。

关键词

园区网络；智能体；知识图谱；GraphRAG；强化学习；自智化运维

1 园区网络运维的痛点与破局之道

园区网络运维面临的核心挑战

随着网络规模扩大与业务复杂度提升，运维正从“规则化自动化”向“智能体驱动的闭环自学习”演进，在此过程中，仍面临诸多挑战，包括：复杂故障还依赖人工经验；跨设备的系统问题难以高效解决；LLM幻觉及推理效率的制约智能体效果；环境差异及客户个性化需求难以得到高效适应。

为解决上述问题，新华三集团经过一系列探索和实践，提出了以下行之有效的技术路径。

第一，通过LLM生成和优化知识图谱（KG），基于GraphRAG 解决LLM的“可解释性与精准检索”问题。

第二，通过深度强化学习（DRL），基于环境反馈持续优化，改进模型、知识图谱、应用工具、策略、算法参数，攻克“动态优化控制”难题。

第三，将知识图谱、强化学习与LLM融合，显著降低大模型幻觉，更能精准定位复杂故障、自动优化网络参数，推动园区网络向“自智化”演进。

2 关键技术：三大技术构建智能运维核心

2.1 知识图谱（KG）：网络的“关系大脑”

知识图谱是园区网络的“结构化记忆库”，以图结构存储网络核心实体（无线设备、有线设备、客户端、告警等）与关系（依赖、因果、修复等），像一张“网络关系地图”，精准捕捉多因素耦合的故障链路。

核心价值：传统文档存储无法捕捉“射频噪声升高→AP负载不均→低速率客户端增多→漫游跳变→用户体验下降” 这类多环节故障链，而 KG 能自然表达这种结构化关系，为故障定位提供“证据链基础”。

知识图谱构建核心流程图1。

图1 知识图谱构建的关键流程

图2是生成的无线领域知识图谱示意图，蓝色表示设备，红色表示故障，黄色表示故障排查方法，绿色为修复措施。不同实体间的关系，在连线上描述来表示。由于LLM的引入，知识图谱终中的实体和关系可以用更加丰富的自然语言来表示，其生产效率和知识表示能力，也得到了很大提升。

图2 生成的无线领域知识图谱示意图

2.2 GraphRAG：智能运维的 “推理引擎”

GraphRAG 是“图 + 检索增强生成”的融合技术，在传统 RAG 基础上增加图结构分析，专门解决园区网络“跨文档、多跳因果、设备依赖”的复杂问题。相对传统RAG的核心优势如表1所示。

表1 GraphRAG与传统RAG能力对比

园区GraphRAG的生成流程如下。

1）子图聚类：基于聚类算法划分无线干扰、漫游、安全接入等主题子图（300-2000 节点 / 子图）。

2）子图摘要：生成核心因果链、高频故障模式、修复动作成功率等结构化信息。

3）图基检索：针对用户查询（如 “A 楼 5G AP 波动”），筛选高价值证据节点与关系路径。

4）多阶段生成：整合局部子图答案，输出可追溯的完整解决方案。

通过多子图层层汇聚的方法，可以完成复杂系统的分解，有利于LLM根据需要进行相关知识的精准召回。

图3为基于LLM召回的知识图谱排障的示例，包括了AP速率低和AP覆盖问题的可能方案，排查步骤，修复措施。

图3 基于LLM召回的知识图谱排障的示例

2.3 强化学习（RL）：网络参数的 “自动优化专家”

RL聚焦“高频、实时、非线性”的控制问题，通过动态决策模型（MDP）实现参数自动寻优。

3 应用实践：通过GraphRAG+KG技术大幅提升智能体性能

3.1 排障准确率和响应时间性能提升

基于Cloudnet百万级设备的故障库、设备日志与专家标注数据，我们构建了对应的故障排查知识图谱，建立了排障智能体，采用知识图谱+LLM的GraphRAG+KG创新组合方案，相比传统方案优势显著，一方面大幅减少冗余上下文，可以提升模型推理效率；另一方面同步精准召回强相关知识，可以提升模型推理的准确度。基于数百个测试例的统计结果表明，LLM+GraphRAG+KG的方案相对传统LLM+RAG的方案，排障时延可以缩短60%以上，排障准确度提升了10%以上。

图4 LLM+GraphRAG+KG方案与传统LLM+RAG方案性能对比

3.2 可解释性增强实例

GraphRAG能输出清晰故障链路与证据，图5给出一个终端信号差的排障示例，清晰解释了终端发生弱信号的次数，是否曾经接入相邻AP，并给出漫游引导的建议。

图5 GraphRAG排障示例

4 技术价值，四大价值助力园区运维

◆复杂故障定位效率翻倍

多因素耦合故障（如漫游 + 干扰 + 负载联动问题）定位时间从小时级缩短至分钟级，无需依赖资深专家经验。

◆运维可信度显著提升

幻觉率显著下降，每一个决策都有结构化证据支撑，能够更好支撑运维团队对排障措施和效果的评估。

◆可持续迭代升级

运维系统采集的结构化知识可作为 RL 的输入特征，形成“数据→知识→优化→反馈”的闭环，网络自学习能力持续增强，更加适应环境差异和用户的个性化需求。

5 未来展望：自智化网络的趋势

“自动化运维”当前已经较为成熟，以规则化工具提效，奠定智能升级基础；园区运维当前正在进入“智能体辅助运维”，可基于 KG、GraphRAG 提供故障定位与决策建议，减少专家依赖；未来实现“自智化网络”，网络可自主感知、决策与优化。

未来的技术路线包括：模型内生图推理能力，无需外部图结构即可解析网络拓扑与故障链；自演化KG，图谱动态升级，自动吸收运维经验、校正错误并融合多园区知识；多智能体强化学习，设备搭载轻量智能体，实现“云-网-端”智能体的高效协助，从而实现E2E业务保障和体验优化。

◆技术融合：从“松耦合”到“原生一体化”

未来 LLM 将内生图推理能力，形成“Graph-native LLM”，无需外部图结构即可直接理解网络拓扑、故障传播路径，运维推理达到专家级水平。

◆知识图谱：从“静态”到“自演化”

KG 将成为网络的 “长记忆”：自动吸收运维经验、校正错误关系、融合多园区知识，结合时间维度形成“时序 + 因果”双维度图谱。

◆强化学习：从“单策略”到“多智能体协同”

无线设备、有线设备、终端将搭载轻量智能体，通过多智能体 RL 实现干扰协调、在线策略微调，结合安全强化学习避免网络震荡，最终实现“无需人工调优”的自治网络。

6 结束语

KG+GraphRAG+RL的技术融合，正在重构园区网络运维的核心逻辑。从“人工依赖”到 “智能驱动”，从“被动响应”到“主动预判”，我们致力于让园区网络成为“自学习、自优化、自修复”的智能体，为企业数字化转型提供稳定、高效、低成本的网络底座。