《数字化领航》AI技术专刊

AI in ALL

SEC for AI：新华三智能体安全护栏体系构建与研究

文 | 新华三集团安全产品线张宇

摘要

本文围绕智能体的安全问题展开研究，指出智能体存在决策逻辑失控、数据投毒、行为越权滥用等风险。相较于传统大模型，智能体风险具有传导性与叠加性，导致安全威胁进一步加重。针对上述问题，新华三推出“智御守护”智能体安全防护解决方案，从环境、模型、应用、数据四个方面构建分层专项防护能力，推出AI防护防火墙、AI安全网关、灵犀卫士等业内领先的安全产品，为智能体提供立体的安全防护能力。同时，首发自主式AI SOC，构建AI安全管理中心，实现各层级风险精准防控和全链路风险协同处置，有效应对智能体传导叠加式安全风险，释放智能体的应用价值。

关键词

智能体安全；环境安全；模型安全；应用安全；数据安全；AI安全管理中心

随着生成式AI技术的迭代与自主决策能力的突破，智能体已从单一任务工具演进为具备环境感知、持续推理、跨域协作能力的复杂智能系统。与传统软件风险不同，智能体拥有数据驱动、黑箱决策、跨域联动等特点，其风险不仅包含传统安全隐患，更衍生出复合化、隐蔽化的新型安全挑战，直接影响技术落地的可信性与安全性。

1 智能体基础架构及安全风险

2025年，ITU-T标准组织发布的《基于预训练大模型的AI智能体要求与评估方法》，将智能体的核心能力明确为感知、决策、记忆、执行四大能力。这四层架构既是智能体实现自主交互与任务完成的技术基础，也是安全风险的主要滋生地，各层级风险相互关联、层层传导，形成全链路安全隐患。

1.1 感知层：信息输入的不可信

感知层接收图像、语音、文本、环境参数等多模态数据，通过预处理与特征融合形成结构化环境表征，为上层决策提供基础数据支撑。由于感知层直接面向开放环境与多样化输入接口，成为风险注入的首要突破口。主要风险包括：多模态数据污染攻击、利用协议漏洞注入恶意内容等。

1.2 决策层：决策逻辑的失控

决策层基于感知层提供的结构化信息，通过大模型推理、任务规划与目标拆解，生成具体行动指令。决策层风险的核心危害在于其自主性失控，一旦决策逻辑被篡改或出现偏差，智能体将主动执行错误操作，且由于决策过程的黑箱特性，风险发现与溯源难度极大。主要风险包括：提示注入攻击、模型偏见与幻觉。

1.3 记忆层：知识存储的污染与泄露

记忆层负责短期上下文缓存与长期知识存储，为决策层提供持续的信息支撑。记忆层作为智能体的知识基础，风险具有隐蔽性与持久性，污染的记忆或泄露的信息将对智能体应用造成长期危害，且恢复成本极高。主要风险包括：数据投毒污染训练语料、训练语料外泄等。

1.4 执行层风险：行为的越权滥用

执行层负责将决策层生成的指令转化为具体操作，执行层风险是智能体安全危害的最终体现，其影响直接作用于人员、设备与数据，是安全防护的核心靶点。主要风险包括：未授权工具违规使用、智能体越权访问等。

2 智能体安全风险的核心特点

与传统大模型风险不同，智能体的安全风险呈现出显著的传导性与叠加性，单一漏洞会触发全链路的变化，放大风险的影响。在多智能体协作场景中，跨智能体传导进一步加剧了危害范围。

◆自决策带来风险不可预测：智能体具备目标拆解、自我决策能力，攻击通过诱导决策逻辑而非直接篡改代码实现。

◆记忆能力放大风险损失：智能体长期记忆的能力，攻击者通过记忆投毒植入的恶意信息，可能在一段时间后才通过决策链生效，形成定时式、投毒式危害。

◆协同性引发风险传导扩散：多智能体协作与工具调用形成复杂信任链条，单个组件漏洞可能引发全面的权限失控。

◆物理性拓展风险影响边界：智能体与工业设备、自动驾驶等物理系统的结合，使网络攻击转化为实体危害。

3 智能体安全的风险解决之道

针对智能体感知、决策、记忆、执行四层风险及传导叠加特性，新华三推出智能体安全防护解决方案，构建分层专项防护、平台协同管理的主动安全体系，实现各层级风险的精准匹配与全链路风险的协同防控。

图1 智能体安全防护体系

3.1 智能体环境安全：筑牢智能体应用的可信环境

智能体的全链路风险都与部署环境的非受控状态相关，环境的脆弱性会直接成为各层级风险的放大器。而在多智能体协同场景中，未被纳入管控的影子AI更会成为攻击者的主要载体。新华三为AI应用提供全面的基础环境防护能力，彻底解决智能体部署环境、算力劫持、影子AI失控等问题。

◆全面梳理AI资产，杜绝AI失控：AI防护防火墙提供业内领先的1500+AI应用识别、400+应用行为管控能力，全面梳理AI资产，精准排查未授权部署的影子AI，减少暴露面。

◆AI漏洞攻击防护：AI防护防火墙支持8000+AI攻击及漏洞特征库，实时检测利用环境漏洞获取模型权限、非法劫持算力的攻击行为。

◆零干扰的算力安全防护：通过容器镜像校验、运行时隔离、行为监测等技术，精准抵御容器逃逸、镜像投毒等攻击。业内最轻量化客户端，对业务零干扰。

3.2 智能体模型安全：“事前检测-事中防护-事后加固”的安全体系

决策层的逻辑是全链路风险的关键传导节点，一旦决策逻辑被劫持，后续执行层的操作会从工具调用转变为恶意行为。新华三打造“事前检测-事中防护-事后加固”的模型安全体系，从逻辑根源上锁定决策的可控性，通过对输入指令、模型缺陷的精准检测，提前阻断恶意诱导路径，修复决策偏差漏洞。

◆训练微调阶段检测与漏洞加固：行业领先的AI模型测评能力，基于1000+专业评测集、100万+多模态对抗样本，在模型训练微调阶段，全面发现算法漏洞、模型偏见、幻觉生成等问题，从源头规避模型风险。

◆推理阶段精准识别恶意诱导：通过AI安全卫士的静态防护引擎与专项训练模型，构建模型安全防护围栏，防止模型被恶意诱导输出错误结果，识别率>99%。

◆模型输出管控，避免敏感数据外泄：内置敏感数据识别模块，自动过滤敏感信息。同时支持安全代答机制，规避模型滥用风险，确保模型推理合规向善。

3.3 智能体应用安全：业内首发AI安全网关，构建智能体最佳控制节点

应用安全是智能体落地应用的核心，新华三重磅推出AI安全网关产品，构建智能体接入、访问、调用的最佳控制节点，解决恶意调用、越权操作、应用漏洞、算力耗尽等问题。

◆智能体零改造接入：全面支持代理大模型、智能体及MCP工具，支持MCP协议转换，用户业务系统无需改造即可接入智能体工作流，大幅降低部署成本与实施周期。

◆业内首创智能体零信任管控：构建应用级、API接口级、工具调用级、数据级四级管控体系，杜绝智能体越权调用、越权访问等风险，确保操作合规可控。

◆Token精细化限流限速：可根据业务负载、算力情况动态调整管控策略，解决智能体防范恶意请求引发的算力耗尽、服务瘫痪问题。

3.4 智能体数据安全：监管训练数据全生命周期，守护训练语料可信可用

AI训练数据以非结构化数据为主，数据投毒、语料数据外泄是两大核心痛点，新华三推出非结构化数据原生标签、数据安全智能体等新技术，实现精准数据发现、智能分级分类、数据细粒度权限管控。

◆语料合规审计，防范数据投毒：自动探测所有非结构化数据资产，调用内容审核平台，对原始语料进行全分析，精准识别恶意数据，从源头阻断数据投毒路径，避免智能体记忆污染。

◆自研数据分类分级智能体，提升治理效率：业内率先推出面向非结构化数据的分级分类能力，为后续数据管控、权限划分提供依据。较传统人工治理效率提升50%，大幅降低人工成本。

◆独创原生文件标签技术，严控数据调用权限：为非结构化文件打上专属标签，标签信息与数据深度绑定，不可篡改。基于文件标签实施精细化权限管控，严格限定不同角色的权限，杜绝违规访问，从根本上防范数据外泄风险。

3.5 智能体安全管理：首发自主式AI SOC，持续运营保障AI运行零事故

智能体的风险并非孤立存在，感知层的接口漏洞可能传导至决策层，记忆层的污染会持续误导执行层，单一维度的防护难以应对传导叠加式危机。新华三安全管理平台整合环境、模型、应用、数据四方面的防护能力，构建协同管控体系，实现安全运营高效化、风险处置智能化。

◆算云安数据融合，风险深度挖掘：全面整合算力运行数据、云资源调度数据、安全监测数据等，打破数据孤岛，深度挖掘智能体隐藏的链式风险，快速定位风险源头、传播路径及影响范围，为风险处置提供精准依据。

◆自研安全智能体，全方位提升安全分析效率：自研安全智能体，多项技术实现行业领先。首创AI赋能数据预处理技术，日志适配时间从三天降低至三分钟；基于技战法分析降噪专利技术，实现告警降噪率提升至96%；智能辅助安全研判技术，实现运营效率提升90%。

◆算云安一体化的自动化响应联动：发现安全风险或异常事件后，无需人工干预，安全智能体自动化生成处置建议，调整算力设备、云平台、安全设备的配置，实现算云网安一体化的精准闭环处置，避免安全风险的传导叠加。

4 结束语

智能体的可信落地，既依赖其在感知、决策、记忆、执行全链路的能力突破，也离不开对其复合型、传导性风险的系统性防御。随着生成式AI与多智能体协作技术的持续演进，智能体的应用场景将更复杂，其安全挑战也会呈现新形态。“智御守护”的核心，正是以主动安全的思维适配智能体的技术特性，让安全从“应用的附加项”转变为“可信的基石”。唯有将安全能力深度融入智能体的全生命周期，才能真正释放智能体的价值。