AI in ALL    AI in ALL
AI in ALL
ICT智能体在“自治网络”中的能力构建和应用落地
文 | 新华三集团解决方案部 陈阳

摘要

随着数字化转型向纵深推进,ICT系统的网络规模持续扩大、结构日趋复杂,传统依赖人工的运维模式已难以满足高效、实时、精准的运营需求。自治网络作为未来ICT网络的核心形态,新华三集团通过构建ICT智能体,以“感知-规划-行动”为核心框架,探索在搭载自研微调垂类ICT模型“大脑”的基础上,实现“动手”能力的核心实现路径。

关键词

AI Agent构建;自治网络(Autonomous Networks);意图驱动;任务规划(Planning);工具调用(Tool Use);安全可控(Guardrails)

引言

在5G、云计算、物联网等技术规模化应用的驱动下,ICT系统网络正加速向“全连接、全智能、全场景”演进,系统中的网络节点数量呈爆发式增长,业务类型日趋多元,网络拓扑也更趋动态多变。在此背景下,传统“人工巡检-故障定位-手动处置”的运维模式已无法适配当前网络的运营需求,一系列突出问题与严峻挑战亟待解决。

首先,人工运维效率与网络规模增长严重失衡。当前网络节点已从数十万级向数百万级突破,海量设备产生的日志与数据远超人工处理极限,实时监控与快速响应成为奢望,故障定位平均耗时常达数小时,而业务中断每分钟都可能造成巨额经济损失。其次,人工决策的局限性愈发凸显。网络决策高度依赖运维人员经验,易出现误判、漏判,且面对动态变化的网络状态与多元业务需求,难以做出精准、及时的调整,导致业务体验波动。再者,人工操作的安全风险难以管控。人为失误、权限滥用等问题频发,超过40%的网络安全事件源于此,给网络稳定性与数据安全带来严重威胁。最后,跨域网络运营的协同壁垒难以打破。“云-边-端”协同等跨域场景日益普遍,各域独立的管理模式导致故障定位难、资源调度效率低,严重制约网络整体运营效能的提升。

面对传统技术手段难以解决的核心痛点,人工智能(AI)已成为突破困局的关键支撑。凭借海量数据处理、自主学习演进与智能决策推演的核心优势,AI能够精准弥补人工运维在效率、精度与安全性上的固有短板。

新华三构建,以自研垂类ICT大模型为核心“大脑”,通过深度整合感知、规划、执行全链路能力,支持与运维人员的自然语言交互,能够高效完成网络故障排查定界、配置优化等关键运维任务,为自治网络的规模化落地提供了切实可行的实践路径。

1 业务需求

如今,ICT网络已成为支撑企业核心业务运转的关键基础设施,其运营质量直接关系到业务体验与商业价值实现。客户在网络运维与业务支撑等核心环节面临的痛点日益凸显,对网络运营的智能化、高效化与精准化提出了更高要求。ICT智能体的研发与落地,并非技术层面的盲目探索,而是深度响应客户实际运营诉求、针对性破解业务痛点的必然选择。

1.1 客户核心业务需求与痛点

从客户实际运营视角来看,核心需求主要聚焦在提升网络运维效率与优化业务支撑精准度两大方向,且每个方向都对应着亟待解决的痛点。在网络运维层面,客户正承受着大规模网络带来的沉重管理压力:无论是运营商骨干网、大型企业园区网,还是云计算数据中心网络,网络节点均已突破百万级,链路拓扑交织复杂,海量设备实时产生的日志和性能数据,早已超出人工处理能力范围。这直接导致客户无法实时监控全网状态,故障定位平均耗时超2小时,而业务中断造成的经济损失会随时间持续扩大。因此,客户迫切需要一套能实现故障快速处置、全网全面管控的运维方案。

在业务支撑层面,客户需要网络能够精准匹配多元化业务的差异化性能要求:数据中心场景中,云桌面、大规模数据备份与虚拟化业务需保障高带宽、低延迟,核心交易系统则对网络可靠性与数据传输稳定性提出极致要求;园区场景下,办公高峰期的视频会议、AR巡检等业务需稳定的高带宽支撑,工业园区内的机器视觉检测、远程设备操控等业务则看重低抖动与毫秒级响应时延。但传统静态网络配置模式,无法跟随业务流量波动、业务类型切换做出动态调整,常常出现核心业务高峰期网络拥堵、低负载时段资源浪费的情况,难以同时满足客户对业务体验稳定性与资源利用率的双重期待。综合来看,可总结为三点:一是突破人工极限的海量数据实时处理能力,二是端到端的自主决策与执行能力,三是精准解读业务意图并转化为网络操作的能力。

1.2 智能体:适配客户需求的最优解决方案

面对客户在数据中心、园区场景下的核心需求与痛点,传统运维技术或单一AI工具因能力局限难以胜任,智能体凭借“感知-规划-行动”的全链路自主能力,成为适配性最优的解决方案。首先,针对两大场景中海量数据实时处理的需求,智能体可整合多协议采集体系,精准采集数据中心的设备算力、链路带宽、业务流量数据,以及园区的终端接入状态、视频会议带宽占用、工业控制指令传输等多维度数据,通过跨设备、跨域的融合分析突破人工处理边界,为全网全面管控提供可靠数据支撑,精准匹配客户对场景化网络状态的实时掌控诉求。

其次,针对差异化业务的动态适配需求,智能体的意图驱动规划能力可发挥关键作用:通过自然语言交互精准读懂“保障数据中心核心交易系统低延迟传输”“确保园区办公高峰期视频会议流畅”等场景化抽象需求,快速转化为具体性能指标,再结合场景内实时网络状态自主规划资源调度方案——比如为数据中心核心交易业务优先分配带宽,为园区AR巡检业务优化无线传输链路,彻底解决传统静态配置无法适配场景内业务动态波动的痛点。最后,针对故障快速处置的需求,智能体可通过标准化工具调用与安全可控机制,构建“决策-执行-反馈”闭环:辅助人工快速完成数据中心设备故障修复、园区网络拥堵疏导等操作,将故障处置时效从小时级压缩至分钟级,同时通过精细化权限管控与操作审计,保障数据中心核心数据传输安全与园区网络运营稳定。

2 发展现状

2.1 ICT领域的AI应用现状

当前,AI技术已在ICT领域规模化落地,核心应用场景持续拓展,不再局限于传统网络运维,已深度渗透至资源调度、业务保障、安全防护等全运营链路,形成多场景协同应用格局。在网络运维场景,AI技术实现了从被动响应到主动预判的转型,通过对SNMP、NetFlow、sFlow等多协议数据的深度融合分析,结合边缘计算技术实现海量运维数据的就近实时处理,大幅提升了网络状态感知的全面性与时效性;同时,基于深度学习的故障诊断模型已实现对硬件故障、链路异常、配置错误等多类型问题的精准识别,业界故障诊断准确率已达90%以上,故障定位耗时较传统人工模式压缩80%以上,显著降低了业务中断风险。

在资源调度场景,AI技术通过时序预测模型精准预判业务流量波动趋势,结合强化学习算法实现网络带宽、算力等资源的动态分配,例如在数据中心场景中,可根据虚拟机负载变化实时调整资源配比,资源利用率提升30%以上;在园区网络场景中,能基于终端接入量动态优化AP负载均衡策略,保障办公、巡检等业务的网络体验稳定性。此外,生成式AI的融入进一步拓展了应用边界,通过自然语言交互实现网络配置的自动生成、运维报告的智能撰写,大幅降低了运维人员的专业门槛。从应用渗透来看,64%的运营商已实施或计划引入生成式AI用于网络运维,大型央国企的规模化实践已充分验证AI的降本增效价值,同时随着AI技术模块化、轻量化发展,中小企业的应用门槛持续降低,推动ICT领域AI应用向全行业普及。

2.2 智能体发展现状

依托大模型技术的突破性进展,智能体已完成从技术概念探索到技术体系初步成型的关键跨越,成为人工智能技术向高阶应用演进的核心方向,其“感知-规划-执行-反馈”的全链路核心能力实现多维度深度进阶,技术基座日趋坚实。在技术体系构建上,大模型的强语义理解与复杂推理能力为智能体提供了核心“大脑”支撑,彻底解决了传统智能系统对复杂指令理解不充分、推理逻辑不严谨的痛点;同时,边缘计算、标准化接口、数字孪生等技术的深度融合,进一步完善了智能体的技术基座,使其具备了从复杂环境感知到精准任务执行的全链路技术支撑,为规模化应用奠定了坚实基础。

从当下核心能力发展来看,各关键环节已实现突破性进展,形成了协同高效的能力体系:感知能力层面,多模态融合感知技术日趋成熟,智能体已可实现文本、语音、图像、设备协议数据等多类型数据的全域采集与精准解析,结合边缘计算技术实现数据就近处理,大幅提升了感知的实时性与精准度,能够全域、动态捕捉复杂环境的多维状态,为后续决策提供高质量数据支撑;规划能力层面,基于ReAct、CoT等先进交互推理架构,智能体已具备将抽象目标拆解为分层有序子任务的能力,结合强化学习、时序预测等算法,可根据环境动态变化实时优化规划策略,实现从“静态规划”到“动态适配”的跨越,大幅提升了对复杂动态场景的适配能力;执行能力层面,通过RESTful API、NETCONF/YANG等标准化协议,构建了稳定高效的工具调用体系,成功破解了传统AI“有脑无手”的核心短板,实现了“决策-执行-反馈”的完整闭环,具备了端到端的自主运营能力;协同能力层面,多智能体通信与协同机制加速完善,MCP、A2A等通信协议的应用打破了智能体间的信息孤岛,为资源共享、任务协作提供了技术支撑,有效拓展了单智能体的能力边界,使其能够应对更复杂的规模化任务需求。

3 目标和关键技术

ICT智能体的核心构建逻辑,是以安全可控工具调用为底层支撑,依托“感知—规划—行动”决策引擎,通过“数据—意图—执行—反馈”全流程闭环,实现网络与业务的自治运营。该框架既保障了智能体在复杂生产环境中的安全合规,又赋予其持续进化的自治能力,为数据中心网络、园区网络等场景的“自治网络”转型提供完整技术路径。

3.1 安全可控的工具调用:自治智能的底层底座

ICT智能体落地生产环境的核心前提,是构建“开放兼容且安全可控”的工具调用体系,解决“智能调用合规化、自动化操作可追溯、风险边界可管控”三大核心问题,为上层智能决策提供可靠支撑。

在技术实现上,首先完成底层能力的工具化封装。将分散于命令行、GUI页面、脚本中的运维操作(如设备配置、故障处置、性能监控),抽象为标准化“原子能力”,通过REST、NETCONF、gRPC等标准API暴露给智能体。每个工具均明确输入输出定义、前置条件与回滚方案,例如U-Center的自动化分析与修复功能,将“启动SNMP服务”“UP网络接口”“杀死指定进程”等操作封装为可复用原子工具,支撑复杂作业流的快速组合。同时,适配多厂商设备的协议差异,通过语义映射技术实现“一次指令、多设备适配”,解决异构网络环境的工具调用兼容问题。

其次,建立全维度安全控制机制。通过多因素身份认证(人员身份+设备指纹+角色权限)实现细粒度访问控制,对高风险操作(如防火墙策略变更、核心路由调整)引入多级审批与模拟执行机制,避免误操作影响。依托配置审计、操作日志留存功能,记录工具调用的发起主体、指令内容、执行结果与影响范围,结合不可篡改存储技术保障审计数据可信性,满足等保三级等合规要求。例如,配置审计异常设备查询功能可实时监测违规配置变更,确保所有自动化操作均可追溯追责。

最后,构建智能安全策略护栏。通过规则引擎与机器学习算法,实现“事前预防—事中控制—事后优化”的全流程风险管控:执行前校验配置合规性(如网络隔离、数据安全策略),执行中监控关键指标(时延、丢包、会话中断),执行后评估操作影响并自动回滚异常变更。结合防火墙策略、微分段黑白名单配置,智能体可动态调整工具调用权限,确保操作始终在安全边界内执行,实现“放权不放手”的自治管控模式。

3.2 “感知—规划—行动”:智能体的核心决策引擎

在安全可控的工具底座之上,ICT智能体以“感知—规划—行动”为决策核心,实现从状态认知、策略生成到操作落地的全流程智能化,解决“如何理解网络状态、如何制定最优策略、如何可靠执行操作”的核心问题。

感知环节聚焦全域状态精准认知。通过多源数据融合采集,覆盖网络拓扑、设备健康、流量模式、终端行为、业务性能等全维度信息,包括告警信息、IT资源监控数据、光模块参数、DHCP地址池使用情况等。利用边缘预处理技术降低传输延迟,通过图神经网络(GNN)构建拓扑映射模型,实时更新数据中心微分段连接关系、园区网络AP-终端关联状态;采用无监督学习算法识别异常行为,如未授权终端接入、端口流量突发、存储服务器性能劣化等;结合因果推理与故障传播模型,实现从现象到根因的精准溯源,例如通过贝叶斯网络定位服务器访问延迟的核心原因(链路拥堵/设备故障/负载过高)。

规划环节实现动态最优决策。基于数字孪生技术构建网络虚拟映射,仿真验证不同策略的执行效果,结合强化学习、多目标优化算法,生成兼顾性能、安全、成本的最优方案。针对典型场景,如数据中心多活出口配置、园区网络微分段部署、跨Fabric互联等,智能体可自动拆解任务目标,制定分步执行策略。例如,在多活出口场景中,根据实时流量负载动态调整链路分配权重;在微分段场景中,基于业务安全等级自动配置访问控制策略与服务链路由,实现“业务需求—策略配置—安全防护”的精准匹配。同时,通过迁移学习快速适配新场景,将成熟配置策略复用至新增业务,提升决策效率。

行动环节保障策略可靠落地。通过意图解析技术将规划结果转化为标准化操作指令,结合任务编排处理跨设备、跨域操作的依赖关系与执行顺序。依托典配指导功能,自动生成分步配置步骤,例如EIA 802.1X认证配置、静态路由直通出口配置等,实现复杂场景的自动化部署。引入灰度发布机制,对核心业务变更采用分阶段执行(如先试点后推广),实时监测执行效果,通过U-Center的故障自动回滚功能,确保异常情况下业务连续性。例如,在虚拟路由器互通配置中,若执行结果不符合预期,智能体可自动触发回滚操作,恢复原有网络状态。

3.3“数据-意图-执行-反馈”:持续进化的闭环体系

ICT智能体的长期价值,源于“数据—意图—执行—反馈”的全流程闭环设计,将分散的运维操作、网络能力与业务需求纳入自循环体系,实现从“执行工具”到“自治大脑”的持续进化。

数据层构建统一知识底座。汇聚感知环节的多源数据,包括设备配置、性能指标、告警日志、业务参数等,通过数据标准化与知识图谱技术,建立设备、拓扑、策略、业务的关联关系。例如,整合CMDB资源信息、DC资源位置数据、业务健康度评分,形成覆盖“物理层—网络层—应用层”的全域数据资产,为智能决策提供知识支撑。同时,通过数据标签化与特征提取,沉淀可复用的场景化数据模型,如无线排障中的区域流量模式、数据中心的业务流量特征等,提升模型训练效率。

意图层实现业务需求精准转化。通过自然语言理解(NLU)与领域知识建模,将业务需求(如“保障金融应用低时延”“夜间升级AP固件”)解析为标准化意图结构,明确目标指标、约束条件与优先级。如运维诊断查询功能,智能体可精准识别用户意图,例如将“查询杭州基地CPU利用率Top5设备”、“排查无线用户上网卡顿问题”等自然语言提问,转化为可执行的工具调用序列,实现“业务语言—技术指令”的自动翻译。针对复杂意图,通过多轮对话补充关键信息,确保决策与业务需求一致。

执行层依托工具平台高效落地。以任务编排为核心,将意图对应的策略转化为跨设备、跨域的操作流程,调用使能平台中注册的工具API,实现自动化执行。例如,在数据中心跨虚拟路由器微分段配置中,智能体自动调用“配置防火墙”、“服务链部署”、“路由调整”等工具,按顺序完成配置部署;在园区网络无线排障中,自动执行“设备状态查询”、“信道调整”、“AP覆盖优化”等操作,无需人工干预。执行过程中实时监控进度,处理依赖关系与失败重试,确保操作可观测、可中断、可恢复。

反馈层驱动持续优化进化。将执行结果(成功/失败)、业务影响(性能变化、用户体验)、合规校验结果回流至数据层,一方面更新强化学习模型的奖励函数,优化后续规划策略;另一方面归纳形成经验知识库,沉淀场景化最佳实践。例如,针对多次出现的无线信号弱问题,反馈机制自动优化AP部署规划模型;通过分析配置审计异常案例,更新安全策略护栏规则。长期来看,智能体通过闭环迭代,逐步提升对复杂场景的适配能力,从“被动执行”进化为“主动预判”的自治运营大脑。

4 未来展望

4.1 多智能体协同自治成为主流方向

单一ICT智能体难以满足复杂跨域网络的运营需求,多智能体协同自治将成为发展主流。通过构建智能体之间的通信协议与协同机制,实现不同域、不同功能的智能体协同工作:例如,数据中心智能体、园区智能体之间的协同,实现跨域网络的一体化运维;规划智能体、态势智能体、排障智能体之间的协同,提升任务执行效率与准确性。

4.2 安全可控技术持续升级

随着网络攻击技术的日趋复杂,ICT智能体的安全可控技术将持续升级。未来,人工智能安全技术将被广泛应用,例如通过异常检测模型识别智能体的异常行为,通过对抗训练提升智能体对恶意攻击的抵御能力。此外,相关法律法规与行业标准将逐步完善,规范ICT智能体的研发与应用,保障自治网络的安全稳定运行。

4.3 泛在化应用场景持续拓展

未来,ICT智能体与自治网络的应用场景将从传统的运营商网络、数据中心网络,拓展至车联网、智能电网、医疗网络等更多领域。在车联网领域,智能体将实现车路协同网络的动态资源调度,保障自动驾驶业务的低时延、高可靠传输;在智能电网领域,智能体将实现电网通信网络的自主运维与优化,提升电网的智能化水平。此外,随着“东数西算”等国家战略的推进,跨地域、跨层级的自治网络将成为重点应用场景,ICT智能体将在其中发挥核心支撑作用。

4.4 绿色低碳成为重要发展目标

在“双碳”目标背景下,绿色低碳将成为ICT智能体与自治网络的重要发展目标。未来,ICT智能体将通过智能规划与资源优化,降低网络能耗:例如,通过动态调整网络设备的运行状态、优化链路选择,减少无效能耗;通过精准的流量预测与资源调度,避免网络资源过度配置。同时,绿色低碳技术将与自治网络深度融合,构建绿色智能的网络生态,推动数字基础设施的可持续发展。

5 结束语

ICT智能体的构建与落地是当前技术下实现自治网络的核心路径。当前,新华三ICT智能体已集成50余种网络智能分析工具,在2025年实现规模化场景验证,使网络问题处置效率提升50%,在轨道交通、电力能源等领域取得显著成效。但仍面临感知精度不足、复杂场景规划能力薄弱、安全可控机制不完善等问题。

未来,随着多智能体协同、大模型融合、安全技术升级等技术的突破,ICT智能体将在更多领域实现规模化应用,推动自治网络成为数字基础设施的核心形态,为数字经济的高质量发展提供有力支撑。

关闭