
摘要
本文围绕智能体的安全问题展开研究,指出智能体存在决策逻辑失控、数据投毒、行为越权滥用等风险。相较于传统大模型,智能体风险具有传导性与叠加性,导致安全威胁进一步加重。针对上述问题,新华三推出“智御守护”智能体安全防护解决方案,从环境、模型、应用、数据四个方面构建分层专项防护能力,推出AI防护防火墙、AI安全网关、灵犀卫士等业内领先的安全产品,为智能体提供立体的安全防护能力。同时,首发自主式AI SOC,构建AI安全管理中心,实现各层级风险精准防控和全链路风险协同处置,有效应对智能体传导叠加式安全风险,释放智能体的应用价值。
关键词
智能体安全;环境安全;模型安全;应用安全;数据安全;AI安全管理中心
随着生成式AI技术的迭代与自主决策能力的突破,智能体已从单一任务工具演进为具备环境感知、持续推理、跨域协作能力的复杂智能系统。与传统软件风险不同,智能体拥有数据驱动、黑箱决策、跨域联动等特点,其风险不仅包含传统安全隐患,更衍生出复合化、隐蔽化的新型安全挑战,直接影响技术落地的可信性与安全性。
1 智能体基础架构及安全风险
2025年,ITU-T标准组织发布的《基于预训练大模型的AI智能体要求与评估方法》,将智能体的核心能力明确为感知、决策、记忆、执行四大能力。这四层架构既是智能体实现自主交互与任务完成的技术基础,也是安全风险的主要滋生地,各层级风险相互关联、层层传导,形成全链路安全隐患。
1.1 感知层:信息输入的不可信
感知层接收图像、语音、文本、环境参数等多模态数据,通过预处理与特征融合形成结构化环境表征,为上层决策提供基础数据支撑。由于感知层直接面向开放环境与多样化输入接口,成为风险注入的首要突破口。主要风险包括:多模态数据污染攻击、利用协议漏洞注入恶意内容等。
1.2 决策层:决策逻辑的失控
决策层基于感知层提供的结构化信息,通过大模型推理、任务规划与目标拆解,生成具体行动指令。决策层风险的核心危害在于其自主性失控,一旦决策逻辑被篡改或出现偏差,智能体将主动执行错误操作,且由于决策过程的黑箱特性,风险发现与溯源难度极大。主要风险包括:提示注入攻击、模型偏见与幻觉。
1.3 记忆层:知识存储的污染与泄露
记忆层负责短期上下文缓存与长期知识存储,为决策层提供持续的信息支撑。记忆层作为智能体的知识基础,风险具有隐蔽性与持久性,污染的记忆或泄露的信息将对智能体应用造成长期危害,且恢复成本极高。主要风险包括:数据投毒污染训练语料、训练语料外泄等。
1.4 执行层风险:行为的越权滥用
执行层负责将决策层生成的指令转化为具体操作,执行层风险是智能体安全危害的最终体现,其影响直接作用于人员、设备与数据,是安全防护的核心靶点。主要风险包括:未授权工具违规使用、智能体越权访问等。
2 智能体安全风险的核心特点
与传统大模型风险不同,智能体的安全风险呈现出显著的传导性与叠加性,单一漏洞会触发全链路的变化,放大风险的影响。在多智能体协作场景中,跨智能体传导进一步加剧了危害范围。
◆自决策带来风险不可预测:智能体具备目标拆解、自我决策能力,攻击通过诱导决策逻辑而非直接篡改代码实现。
◆记忆能力放大风险损失:智能体长期记忆的能力,攻击者通过记忆投毒植入的恶意信息,可能在一段时间后才通过决策链生效,形成定时式、投毒式危害。
◆协同性引发风险传导扩散:多智能体协作与工具调用形成复杂信任链条,单个组件漏洞可能引发全面的权限失控。
◆物理性拓展风险影响边界:智能体与工业设备、自动驾驶等物理系统的结合,使网络攻击转化为实体危害。
3 智能体安全的风险解决之道
针对智能体感知、决策、记忆、执行四层风险及传导叠加特性,新华三推出智能体安全防护解决方案,构建分层专项防护、平台协同管理的主动安全体系,实现各层级风险的精准匹配与全链路风险的协同防控。

图1 智能体安全防护体系
3.1 智能体环境安全:筑牢智能体应用的可信环境
智能体的全链路风险都与部署环境的非受控状态相关,环境的脆弱性会直接成为各层级风险的放大器。而在多智能体协同场景中,未被纳入管控的影子AI更会成为攻击者的主要载体。新华三为AI应用提供全面的基础环境防护能力,彻底解决智能体部署环境、算力劫持、影子AI失控等问题。
◆全面梳理AI资产,杜绝AI失控:AI防护防火墙提供业内领先的1500+AI应用识别、400+应用行为管控能力,全面梳理AI资产,精准排查未授权部署的影子AI,减少暴露面。
◆AI漏洞攻击防护:AI防护防火墙支持8000+AI攻击及漏洞特征库,实时检测利用环境漏洞获取模型权限、非法劫持算力的攻击行为。
◆零干扰的算力安全防护:通过容器镜像校验、运行时隔离、行为监测等技术,精准抵御容器逃逸、镜像投毒等攻击。业内最轻量化客户端,对业务零干扰。
3.2 智能体模型安全:“事前检测-事中防护-事后加固”的安全体系
决策层的逻辑是全链路风险的关键传导节点,一旦决策逻辑被劫持,后续执行层的操作会从工具调用转变为恶意行为。新华三打造“事前检测-事中防护-事后加固”的模型安全体系,从逻辑根源上锁定决策的可控性,通过对输入指令、模型缺陷的精准检测,提前阻断恶意诱导路径,修复决策偏差漏洞。
◆训练微调阶段检测与漏洞加固:行业领先的AI模型测评能力,基于1000+专业评测集、100万+多模态对抗样本,在模型训练微调阶段,全面发现算法漏洞、模型偏见、幻觉生成等问题,从源头规避模型风险。
◆推理阶段精准识别恶意诱导:通过AI安全卫士的静态防护引擎与专项训练模型,构建模型安全防护围栏,防止模型被恶意诱导输出错误结果,识别率>99%。
◆模型输出管控,避免敏感数据外泄:内置敏感数据识别模块,自动过滤敏感信息。同时支持安全代答机制,规避模型滥用风险,确保模型推理合规向善。
3.3 智能体应用安全:业内首发AI安全网关,构建智能体最佳控制节点
应用安全是智能体落地应用的核心,新华三重磅推出AI安全网关产品,构建智能体接入、访问、调用的最佳控制节点,解决恶意调用、越权操作、应用漏洞、算力耗尽等问题。
◆智能体零改造接入:全面支持代理大模型、智能体及MCP工具,支持MCP协议转换,用户业务系统无需改造即可接入智能体工作流,大幅降低部署成本与实施周期。
◆业内首创智能体零信任管控:构建应用级、API接口级、工具调用级、数据级四级管控体系,杜绝智能体越权调用、越权访问等风险,确保操作合规可控。
◆Token精细化限流限速:可根据业务负载、算力情况动态调整管控策略,解决智能体防范恶意请求引发的算力耗尽、服务瘫痪问题。
3.4 智能体数据安全:监管训练数据全生命周期,守护训练语料可信可用
AI训练数据以非结构化数据为主,数据投毒、语料数据外泄是两大核心痛点,新华三推出非结构化数据原生标签、数据安全智能体等新技术,实现精准数据发现、智能分级分类、数据细粒度权限管控。
◆语料合规审计,防范数据投毒:自动探测所有非结构化数据资产,调用内容审核平台,对原始语料进行全分析,精准识别恶意数据,从源头阻断数据投毒路径,避免智能体记忆污染。
◆自研数据分类分级智能体,提升治理效率:业内率先推出面向非结构化数据的分级分类能力,为后续数据管控、权限划分提供依据。较传统人工治理效率提升50%,大幅降低人工成本。
◆独创原生文件标签技术,严控数据调用权限:为非结构化文件打上专属标签,标签信息与数据深度绑定,不可篡改。基于文件标签实施精细化权限管控,严格限定不同角色的权限,杜绝违规访问,从根本上防范数据外泄风险。
3.5 智能体安全管理:首发自主式AI SOC,持续运营保障AI运行零事故
智能体的风险并非孤立存在,感知层的接口漏洞可能传导至决策层,记忆层的污染会持续误导执行层,单一维度的防护难以应对传导叠加式危机。新华三安全管理平台整合环境、模型、应用、数据四方面的防护能力,构建协同管控体系,实现安全运营高效化、风险处置智能化。
◆算云安数据融合,风险深度挖掘:全面整合算力运行数据、云资源调度数据、安全监测数据等,打破数据孤岛,深度挖掘智能体隐藏的链式风险,快速定位风险源头、传播路径及影响范围,为风险处置提供精准依据。
◆自研安全智能体,全方位提升安全分析效率:自研安全智能体,多项技术实现行业领先。首创AI赋能数据预处理技术,日志适配时间从三天降低至三分钟;基于技战法分析降噪专利技术,实现告警降噪率提升至96%;智能辅助安全研判技术,实现运营效率提升90%。
◆算云安一体化的自动化响应联动:发现安全风险或异常事件后,无需人工干预,安全智能体自动化生成处置建议,调整算力设备、云平台、安全设备的配置,实现算云网安一体化的精准闭环处置,避免安全风险的传导叠加。
4 结束语
智能体的可信落地,既依赖其在感知、决策、记忆、执行全链路的能力突破,也离不开对其复合型、传导性风险的系统性防御。随着生成式AI与多智能体协作技术的持续演进,智能体的应用场景将更复杂,其安全挑战也会呈现新形态。“智御守护”的核心,正是以主动安全的思维适配智能体的技术特性,让安全从“应用的附加项”转变为“可信的基石”。唯有将安全能力深度融入智能体的全生命周期,才能真正释放智能体的价值。



浙公网安备 33010802004375号