GJJS    前沿技术
前沿技术
AI Agent技术栈拆解:从“LLM大脑”到“自主规划与执行”
文 | 新华三集团解决方案部 李龙飞

摘要

本文以“感知-规划-行动”闭环为主线,系统拆解通用Al Agent的技术栈:从LLM作为“大脑”的推理与决策,到ReAct等规划框架的任务分解,再到工具调用与记忆管理如何支撑复杂任务的自主执行。文章结合Agent的技术栈拆解,对Agent生产落地给出选型和策略建议,并对未来技术突破与商业化场景进行展望。

关键词

AI Agent;智能体;ReAct;CoT;Workflow;工具调用

引言

Al Agent的出现,标志着AI应用从简单的问答对话、基于提示词的角色扮演,向具备自主记忆、推理、规划和执行能力的全自动系统迈进。它们不再仅仅是工具,而是能够独立感知环境、制定目标、执行任务并从经验中学习的“数字生命”。本文旨在为读者提供一个全面的技术栈拆解,揭示Al Agent如何从一个拥有“LLM大脑”的聊天机器人,进化为能够自主规划并执行复杂任务的智能系统。

1 为什么需要智能体

随着大语言模型(LLM)能力的日益精进,AI应用正加速渗透现实世界的生产与生活。在此背景下,传统的简单问答式AI或僵化的基于规则的AI范式已难以满足复杂需求。为了充分释放大模型的潜力,需要一种更接近“人类”行为模式的AI应用架构——即“智能体(Agent)”。智能体的出现,标志着AI应用从“被动思考问题”向“主动完成任务”的关键性跃迁。

图1 AI应用范式的变迁

智能体是实现通用人工智能(AGI)愿景的关键一步,旨在弥合AI能力与现实世界复杂任务之间的差距。

2 智能体的定义

那么什么是智能体呢?要透彻理解智能体,首先需要明确其科学定义与核心内涵。

1)学术界:四性框架

1995年由Wooldridge & Jennings 提出,被写入多本AI经典教材(如Russell & Norvig《人工智能:一种现代方法》)的Agent定义,包含四条最低共识:

◆自主性(Autonomy):无需人工持续干预即可运行

◆反应性(Reactivity):能感知环境并及时响应变化

◆主动性(Pro-activeness):能根据目标主动发起行动,而非仅被动响应

◆社会性(Social Ability):可与其他 Agent 或人类进行交互、协作

2)工业界:LLM 时代的“闭环”视角

2023年后,随着大模型落地,头部厂商从实用角度定义智能体,普遍把“感知-规划-行动-反思”的闭环能力视为 Agent 的核心:

◆OpenAI将自家Assistants/GPTs定位为“可调用函数、插件,自主完成多步任务”的Agent

◆Google、Microsoft、AWS等推出的企业级Agent平台,也都强调“规划-执行-观测”循环

综合学术与产业界的共识,可将智能体的现代定义归纳为:智能体(Agent)是一种能够感知环境、自主决策并采取行动以实现特定目标的计算实体。智能体通常具备以下关键特征。

◆感知(Perception):能够从环境中收集数据(例如,通过传感器、API、用户输入等)。

◆规划与决策(Planning & Decision-making):分析收集到的信息,并利用大型语言模型LLM或预定义的规则来决定最佳行动方案。

◆行动(Action):执行任务或与环境互动,包括操作软件、控制硬件或生成响应。

◆反思与学习(Reflection & Learning):Agent能够评估自己的行动结果,识别错误,并从失败中学习,改进未来的规划。

3 通用智能体架构

典型的Agent系统由四大模块构成,形成完整的“感知-规划-行动-反思”闭环。

图2 通用智能体架构图

3.1 感知模块(Perception):Agent的“感官系统”

功能:

接收来自用户的自然语言指令、系统事件、传感器数据或其他Agent的消息,转化为结构化输入供后续处理。

技术实现如下。

◆自然语言处理(NLP):理解用户的文本指令和对话意图。

◆计算机视觉(CV):识别和分析图像、视频中的内容。

◆语音识别(ASR):将语音转换为可处理的文本信息。

◆传感器数据处理:处理来自IoT设备的结构化数据。

3.2 规划模块(Planning):Agent的“大脑”

功能:

规划模块是智能体实现自主性的核心。该模块负责将复杂任务分解为可管理的子任务,并根据上下文决定下一步行动。

技术实现如下。

◆思维链(Chain of Thought, CoT): 通过引导LLM生成一系列中间推理步骤,提高复杂任务解决的准确性。

◆ReAct框架(Reasoning and Acting):ReAct是目前最流行的“边想边做”的迭代方法。它在一个循环中交替进行推理(Reason)和行动(Act):LLM首先生成一个推理过程(Thought),然后决定一个行动(Action),观察行动结果(Observation),再进行下一轮推理,直到任务完成。这种方法使得Agent能够根据实时反馈动态调整策略。

◆子目标分解(Subgoal Decomposition): 将一个大目标分解为一系列小的、可执行的目标。

◆自我批评/反思(Self-reflection/Self-critics): Agent能够评估自己的行动结果,识别错误,并从失败中学习,改进未来的规划。

3.3 记忆模块(Memory)Agent的“海马体”

功能:

记忆模块是Agent维持上下文和持续学习的关键。

技术实现如下。

◆短期记忆(Short-termMemory):用于存储LLM的上下文窗口(Context Window),用于存储当前任务的对话历史、中间步骤和即时观察结果。通常采用内存方式存储在任务session中。

◆长期记忆(Long-term Memory): 用于存储和检索过去经验、外部知识或通用事实。通常采用向量数据库结合RAG技术实现,使Agent能够从海量信息中检索相关内容。

3.4 行动模块(Action):Agent的“手脚”

功能:

也称“工具调用”(Tool Use),是Agent与外部世界交互的唯一途径,支持根据规划模块的决策,调用工具执行特定动作,并收集和反馈执行结果。这些工具可以是API、数据库查询、代码执行环境、网页浏览器等。

技术实现如下。

◆外部API (Application Programming Interfaces): 这是最常见的工具类型,允许Al Agent与各种第三方服务、数据库或软件系统进行交互,以获取实时信息、执行特定任务或自动化工作流程。例如,调用天气API获取天气预报、访问 CRM 系统、预订机票、管理日历。

◆代码解释器 (Code Interpreters): AI Agent 可以执行代码(通常是Python)来解决复杂的数学或逻辑问题、进行数据分析、生成报告或运行模拟。这使得 Agent 能够在受控沙箱环境中执行精确计算和数据处理任务。

◆本地应用/系统接口(LocalApplications/System Interfaces): 在某些实现中,AI Agent可以被授权与本地计算机上的应用交互,例如访问文件系统、调用计算器或与其他本地软件集成。

◆多智能体协作协议 (MCP) / 内部协议: MCP 是一种新兴的标准化协议,旨在规范不同AI模型和智能体之间的互操作性和数据交换,使智能体能够安全、实时地访问和整合多个业务系统的数据,实现更复杂的协作任务。

4 智能体规划和选型建议

智能体架构各核心模块都有多种可选技术方案,这在带来高度的灵活性和场景适应性的同时,也带来工具链碎片化风险和选择困难。在真正落地一个智能体时,应该如何规划和选择,建议参考以下几点通用建议。

4.1 好的Agent框架是个不错的起点

在一个已有的Agent框架基础上构建智能体,无疑是一个好的起点,可以加快速度、降低成本,尤其是可以显著规避工具链碎片化带来的技术整合风险。目前业界已有多种开源和商业的Agent框架,可根据目标场景按需选择。

表1 业界主要Agent框架与适用场景

4.2 选择正确的大模型

大模型是智能体的大脑,在任务分解、工具选择、反思等环节起着至关重要的作用。大模型能力越强,智能体越智能。在选择过程中,需要考虑多重因素。

◆模型的综合能力,尤其是逻辑推理、工具调用、编码等核心任务能力:

√ 大规模多任务语言理解(MMLU)(用于推理能力)。

√ 伯克利函数调用排行榜(用于工具选择和调用)。

√HumanEval和BigCodeBench(用于编码能力)。

◆大模型的上下文窗口大小。智能体为了维持记忆和处理复杂任务,与大模型交互的上下文通常会很长,更大的上下文窗口将非常有益。建议至少选用 128K 以上的上下文窗口,而 512K tokens 甚至更大的窗口正逐渐成为行业首选。

◆使用公网服务还是私有化部署。目前主流的优秀大模型,都提供公网服务,包括Gemini3Pro、Claude Opus 4.5、GPT 5.2、DeepSeek V3.2、Qwen 3等,公网服务性价比高,成本灵活,但所有数据都要上传到公网,存在信息泄露风险;部分优秀大模型,例如DeepSeekV3.2、Qwen3等,也支持本地私有化部署,数据不出域,安全无忧,但需要本地算力支持,成本相对较高,弹性空间小。

当然在智能体整个工作流程中,可能会涉及多个不同模型的组合使用,我们这里只讨论用作智能体“大脑”的核心大模型。

4.3 选择合适的Agent工作模式

所谓的Agent工作模式,是指Agent在做任务分解、规划决策时采用的技术方案和策略,不同的工作模式,决定了任务的执行路径和最终执行效果。常见的工作模式如表2。

表2 当前常见Agent工作模式分析

可以根据Agent的目标场景,选择合适的工作模式。这些工作模式并非互相排斥,而是可以组合使用。

4.4 优化你的工具定义

Agent的核心能力之一就是可以在合适的环节、以合适的参数、调用合适的工具来完成任务。这个决策由大模型来完成,大模型的工具调用能力固然重要,但如何定义你的工具,让大模型能更清晰明确的理解各个工具的用途,也是非常重要的。

对于每一项工具,你需要定义以下内容,并将其作为系统提示词的一部分:

◆工具名称:为功能提供一个唯一且具有描述性的名称。

◆工具描述:清晰地阐述工具的作用及其适用场景,这有助于大模型准确判断何时应该选用该工具。

◆工具参数:描述调用某工具时的必选和可选参数、它们的类型以及其它相关约束,大模型会根据上下文智能给出调用工具时的输入参数。

◆工具调用示例:少量的工具调用示例,也会有助于大模型更准确把握该工具的使用方式。

4.5 考虑Agent与Workflow配合使用

Agent的规划和决策都由大模型完成,但大模型的幻觉等问题不可完全避免,因此导致任务结果存在不稳定性和不可预测性。在部分生产和合规场景,Agent无法被信任,反而workflow更适合。

Workflow就像地铁:路线和班次都是预先规划好的,高效、可靠,但不能随意改道。

Agent就像出租车司机:知道目的地,可以根据实时路况(如堵车)动态选择最佳路线,甚至根据乘客需求调整行程。

表3 Agent与Workflow对比

在实际应用中,最佳的方案通常是将两者结合起来:在workflow的部分流程环节中调用Agent实现智能决策和弹性;或把workflow添加到Agent的可选工具列表中,提升部分关键任务的可控性。

5 ICT领域智能体落地实践

在深入拆解了通用Al Agent的技术架构之后,我们可以清晰地看到,Al Agent已经发展到可生产落地阶段,正逐步成为驱动现实世界复杂系统智能化演进的核心引擎。但真正落地某个垂域的智能体应用,远不是简单套用上述的Agent架构就能够实现,还需要在深入理解业务的基础上,根据业务场景的特点进行更细致的技术选型、数据处理、工具适配、甚至模型垂域能力训练,并持续迭代优化。

灵犀运维智能体是新华三在Al Agent领域的一次探索和实践。其业务目标是将AI能力原生融入ICT系统的“规、建、维、优”全流程,实现ICT知识问答、故障诊断、智能问询、智能巡检、故障预测、告警降噪/根因分析、安全负载分析等全业务场景的自主化和智能化。如何推进ICT智能体的成功落地,需要深入分析其业务需求和场景特点:

◆工具调用(Action)层面,ICT智能体所依赖的工具链远比通用Agent复杂和专业。它需要与NetConf、SNMP、gRPC等底层网络协议深度集成,调用拓扑发现、配置管理、性能监控、故障诊断等专用工具,并实现对云、网、安、算、存、端全栈资源的统一控制。这些工具不仅接口规范各异、权限体系严格,且多数运行在高安全隔离环境中,要求Agent具备极强的系统级交互能力和安全合规意识。

◆大模型选型方面,通用大模型虽具备强大的语言理解和推理能力,但对ICT领域特有的术语体系、配置逻辑、告警模式、拓扑关系等缺乏深度认知,直接使用会导致理解偏差、决策错误甚至“幻觉”操作。因此,必须通过微调训练以及RAG技术,给大模型注入海量的设备手册、运维知识库、历史工单与专家经验,构建真正“懂ICT”的领域大脑。此外,在故障预警场景还需要时序模型实现准确预测,在故障诊断、根因分析等任务场景,还需结合端侧小模型实现边缘智能。ICT智能体整体采用“云边协同、多模互动”的混合推理架构。

◆数据与记忆管理维度,ICT系统的数据具有典型的多源异构、实时性强、数据密集等特点,涵盖告警流、KPI指标、日志序列、拓扑变化等多个维度。这要求长期记忆系统不仅要支持高效的向量检索,还需融合图数据库、时序数据库等结构化存储,构建“知识+数据”双驱动的记忆架构。短期记忆则需精确追踪跨设备、跨系统的任务上下文,确保在复杂排障或变更流程中不丢失状态、不产生冲突。

图3 新华三灵犀运维智能体

灵犀运维智能体是通用AI技术与行业纵深能力深度融合的一次成功实践。它不仅验证了Al Agent的技术可行性,更探索出一条可复制、可推广的产业智能化路径。在这条路上,新华三凭借深厚的ICT技术积累与前瞻性的AI战略布局,正引领行业从“被动响应”走向“主动自治”,从“人工运维”迈向“智能原生”。

6 智能体未来展望

6.1 核心技术突破

◆多模态协作与感知: Agent将无缝处理文本、图像、语音、视频等信息,实现跨模态联合理解与推理,具备更接近人类的综合感知与自然交互能力。

◆长期记忆与上下文管理: 突破目前短期记忆的限制,Agent能够管理和利用庞大的历史数据和经验,支持动态上下文裁剪与聚焦,进行更复杂的推理和终身学习。

◆可靠性与安全性:大幅提升决策的可解释性和可控性,减少幻觉和异常行为,引入精细化权限控制与风险评估机制,使Agent在医疗、金融等高风险场景中具备可靠性与安全性。

◆自主进化闭环:自评-自改-自部署的“代码级”迭代成为标配,通过自动采集关键指标和决策数据,形成以量化数据为基础的反馈闭环,驱动Agent持续自主进化。

6.2 基础设施演进

◆一体化Agent开发:提供集成优化的Agent开发全工具链,统一运行环境与接口标准,支持模块化可编排与工具链管理和桥接,实现多工具、多Agent间的高效协作与安全管理,配合灵活高效的调试手段,大幅提升Agent开发的效率和质量。

◆生产级资源调度:构建面向生产环境的Agent运行底座,提供资源沙箱与安全隔离机制,支持多Agent并行运行与协同,根据不同Agent的负载和任务需求动态调度与伸缩资源,在保障稳定性与安全性的同时,最大化整体资源利用率。

◆全链路可观测:Agent端到端全链路可观测,自动进行关键指标采集和合规审查,快速定位性能瓶颈或异常输出,及时发现安全隐患,守护Agent的平稳运行。

6.3 更广泛的应用落地

◆个性化超级助理: 成为每个人的专属秘书,主动管理日程、沟通、健康监测和财务规划。

◆自动化科学研究:在生物制药、材料科学等领域,Agent将自主设计实验、执行模拟并发现新知识。

◆智能企业运营: 深度集成到企业资源规划(ERP)和客户关系管理(CRM)系统中,自主优化供应链、自动化客户服务和市场营销。

◆自主软件工程师: 能够理解需求、编写代码、测试和部署完整的软件模块,实现软件开发流程的革命。

◆具身智能: Agent将从数字世界走向物理世界,控制机器人执行现实任务(如仓储、家庭服务)。

7 结束语

Al Agent正从“对话助手”跃升为“数字生命”,以感知-规划-行动-反思的闭环,打通复杂任务最后一公里。未来,多模态、长记忆、自进化将把Agent推向科研、制造、生活每个角落,成为连接数字世界与现实世界的桥梁,开启人机协同的新范式。

关闭