《数字化领航》AI应用专刊

前沿技术

AI Agent技术栈拆解：从“LLM大脑”到“自主规划与执行”

文 | 新华三集团解决方案部李龙飞

摘要

本文以“感知-规划-行动”闭环为主线，系统拆解通用Al Agent的技术栈：从LLM作为“大脑”的推理与决策，到ReAct等规划框架的任务分解，再到工具调用与记忆管理如何支撑复杂任务的自主执行。文章结合Agent的技术栈拆解，对Agent生产落地给出选型和策略建议，并对未来技术突破与商业化场景进行展望。

关键词

AI Agent；智能体；ReAct；CoT；Workflow；工具调用

引言

Al Agent的出现，标志着AI应用从简单的问答对话、基于提示词的角色扮演，向具备自主记忆、推理、规划和执行能力的全自动系统迈进。它们不再仅仅是工具，而是能够独立感知环境、制定目标、执行任务并从经验中学习的“数字生命”。本文旨在为读者提供一个全面的技术栈拆解，揭示Al Agent如何从一个拥有“LLM大脑”的聊天机器人，进化为能够自主规划并执行复杂任务的智能系统。

1 为什么需要智能体

随着大语言模型（LLM）能力的日益精进，AI应用正加速渗透现实世界的生产与生活。在此背景下，传统的简单问答式AI或僵化的基于规则的AI范式已难以满足复杂需求。为了充分释放大模型的潜力，需要一种更接近“人类”行为模式的AI应用架构——即“智能体（Agent）”。智能体的出现，标志着AI应用从“被动思考问题”向“主动完成任务”的关键性跃迁。

图1 AI应用范式的变迁

智能体是实现通用人工智能（AGI）愿景的关键一步，旨在弥合AI能力与现实世界复杂任务之间的差距。

2 智能体的定义

那么什么是智能体呢？要透彻理解智能体，首先需要明确其科学定义与核心内涵。

1）学术界：四性框架

1995年由Wooldridge & Jennings 提出，被写入多本AI经典教材（如Russell & Norvig《人工智能：一种现代方法》）的Agent定义，包含四条最低共识：

◆自主性（Autonomy）：无需人工持续干预即可运行

◆反应性（Reactivity）：能感知环境并及时响应变化

◆主动性（Pro-activeness）：能根据目标主动发起行动，而非仅被动响应

◆社会性（Social Ability）：可与其他 Agent 或人类进行交互、协作

2）工业界：LLM 时代的“闭环”视角

2023年后，随着大模型落地，头部厂商从实用角度定义智能体，普遍把“感知-规划-行动-反思”的闭环能力视为 Agent 的核心：

◆OpenAI将自家Assistants/GPTs定位为“可调用函数、插件，自主完成多步任务”的Agent

◆Google、Microsoft、AWS等推出的企业级Agent平台，也都强调“规划-执行-观测”循环

综合学术与产业界的共识，可将智能体的现代定义归纳为：智能体（Agent）是一种能够感知环境、自主决策并采取行动以实现特定目标的计算实体。智能体通常具备以下关键特征。

◆感知（Perception）：能够从环境中收集数据（例如，通过传感器、API、用户输入等）。

◆规划与决策（Planning & Decision-making）：分析收集到的信息，并利用大型语言模型LLM或预定义的规则来决定最佳行动方案。

◆行动（Action）：执行任务或与环境互动，包括操作软件、控制硬件或生成响应。

◆反思与学习（Reflection & Learning）：Agent能够评估自己的行动结果，识别错误，并从失败中学习，改进未来的规划。

3 通用智能体架构

典型的Agent系统由四大模块构成，形成完整的“感知-规划-行动-反思”闭环。

图2 通用智能体架构图

3.1 感知模块（Perception）：Agent的“感官系统”

功能：

接收来自用户的自然语言指令、系统事件、传感器数据或其他Agent的消息，转化为结构化输入供后续处理。

技术实现如下。

◆自然语言处理（NLP）：理解用户的文本指令和对话意图。

◆计算机视觉（CV）：识别和分析图像、视频中的内容。

◆语音识别（ASR）：将语音转换为可处理的文本信息。

◆传感器数据处理：处理来自IoT设备的结构化数据。

3.2 规划模块（Planning）：Agent的“大脑”

功能：

规划模块是智能体实现自主性的核心。该模块负责将复杂任务分解为可管理的子任务，并根据上下文决定下一步行动。

技术实现如下。

◆思维链（Chain of Thought, CoT）：通过引导LLM生成一系列中间推理步骤，提高复杂任务解决的准确性。

◆ReAct框架（Reasoning and Acting）：ReAct是目前最流行的“边想边做”的迭代方法。它在一个循环中交替进行推理（Reason）和行动（Act）：LLM首先生成一个推理过程（Thought），然后决定一个行动（Action），观察行动结果（Observation），再进行下一轮推理，直到任务完成。这种方法使得Agent能够根据实时反馈动态调整策略。

◆子目标分解（Subgoal Decomposition）：将一个大目标分解为一系列小的、可执行的目标。

◆自我批评/反思（Self-reflection/Self-critics）： Agent能够评估自己的行动结果，识别错误，并从失败中学习，改进未来的规划。

3.3 记忆模块（Memory）Agent的“海马体”

功能：

记忆模块是Agent维持上下文和持续学习的关键。

技术实现如下。

◆短期记忆（Short-termMemory）：用于存储LLM的上下文窗口（Context Window），用于存储当前任务的对话历史、中间步骤和即时观察结果。通常采用内存方式存储在任务session中。

◆长期记忆（Long-term Memory）：用于存储和检索过去经验、外部知识或通用事实。通常采用向量数据库结合RAG技术实现，使Agent能够从海量信息中检索相关内容。

3.4 行动模块（Action）：Agent的“手脚”

功能：

也称“工具调用”（Tool Use），是Agent与外部世界交互的唯一途径，支持根据规划模块的决策，调用工具执行特定动作，并收集和反馈执行结果。这些工具可以是API、数据库查询、代码执行环境、网页浏览器等。

技术实现如下。

◆外部API (Application Programming Interfaces): 这是最常见的工具类型，允许Al Agent与各种第三方服务、数据库或软件系统进行交互，以获取实时信息、执行特定任务或自动化工作流程。例如，调用天气API获取天气预报、访问 CRM 系统、预订机票、管理日历。

◆代码解释器 (Code Interpreters): AI Agent 可以执行代码（通常是Python）来解决复杂的数学或逻辑问题、进行数据分析、生成报告或运行模拟。这使得 Agent 能够在受控沙箱环境中执行精确计算和数据处理任务。

◆本地应用/系统接口（LocalApplications/System Interfaces）: 在某些实现中，AI Agent可以被授权与本地计算机上的应用交互，例如访问文件系统、调用计算器或与其他本地软件集成。

◆多智能体协作协议 (MCP) / 内部协议: MCP 是一种新兴的标准化协议，旨在规范不同AI模型和智能体之间的互操作性和数据交换，使智能体能够安全、实时地访问和整合多个业务系统的数据，实现更复杂的协作任务。

4 智能体规划和选型建议

智能体架构各核心模块都有多种可选技术方案，这在带来高度的灵活性和场景适应性的同时，也带来工具链碎片化风险和选择困难。在真正落地一个智能体时，应该如何规划和选择，建议参考以下几点通用建议。

4.1 好的Agent框架是个不错的起点

在一个已有的Agent框架基础上构建智能体，无疑是一个好的起点，可以加快速度、降低成本，尤其是可以显著规避工具链碎片化带来的技术整合风险。目前业界已有多种开源和商业的Agent框架，可根据目标场景按需选择。

表1 业界主要Agent框架与适用场景

4.2 选择正确的大模型

大模型是智能体的大脑，在任务分解、工具选择、反思等环节起着至关重要的作用。大模型能力越强，智能体越智能。在选择过程中，需要考虑多重因素。

◆模型的综合能力，尤其是逻辑推理、工具调用、编码等核心任务能力：

√ 大规模多任务语言理解（MMLU）（用于推理能力）。

√ 伯克利函数调用排行榜（用于工具选择和调用）。

√HumanEval和BigCodeBench（用于编码能力）。

◆大模型的上下文窗口大小。智能体为了维持记忆和处理复杂任务，与大模型交互的上下文通常会很长，更大的上下文窗口将非常有益。建议至少选用 128K 以上的上下文窗口，而 512K tokens 甚至更大的窗口正逐渐成为行业首选。

◆使用公网服务还是私有化部署。目前主流的优秀大模型，都提供公网服务，包括Gemini3Pro、Claude Opus 4.5、GPT 5.2、DeepSeek V3.2、Qwen 3等，公网服务性价比高，成本灵活，但所有数据都要上传到公网，存在信息泄露风险；部分优秀大模型，例如DeepSeekV3.2、Qwen3等，也支持本地私有化部署，数据不出域，安全无忧，但需要本地算力支持，成本相对较高，弹性空间小。

当然在智能体整个工作流程中，可能会涉及多个不同模型的组合使用，我们这里只讨论用作智能体“大脑”的核心大模型。

4.3 选择合适的Agent工作模式

所谓的Agent工作模式，是指Agent在做任务分解、规划决策时采用的技术方案和策略，不同的工作模式，决定了任务的执行路径和最终执行效果。常见的工作模式如表2。

表2 当前常见Agent工作模式分析

可以根据Agent的目标场景，选择合适的工作模式。这些工作模式并非互相排斥，而是可以组合使用。

4.4 优化你的工具定义

Agent的核心能力之一就是可以在合适的环节、以合适的参数、调用合适的工具来完成任务。这个决策由大模型来完成，大模型的工具调用能力固然重要，但如何定义你的工具，让大模型能更清晰明确的理解各个工具的用途，也是非常重要的。

对于每一项工具，你需要定义以下内容，并将其作为系统提示词的一部分：

◆工具名称：为功能提供一个唯一且具有描述性的名称。

◆工具描述：清晰地阐述工具的作用及其适用场景，这有助于大模型准确判断何时应该选用该工具。

◆工具参数：描述调用某工具时的必选和可选参数、它们的类型以及其它相关约束，大模型会根据上下文智能给出调用工具时的输入参数。

◆工具调用示例：少量的工具调用示例，也会有助于大模型更准确把握该工具的使用方式。

4.5 考虑Agent与Workflow配合使用

Agent的规划和决策都由大模型完成，但大模型的幻觉等问题不可完全避免，因此导致任务结果存在不稳定性和不可预测性。在部分生产和合规场景，Agent无法被信任，反而workflow更适合。

Workflow就像地铁：路线和班次都是预先规划好的，高效、可靠，但不能随意改道。

Agent就像出租车司机：知道目的地，可以根据实时路况（如堵车）动态选择最佳路线，甚至根据乘客需求调整行程。

表3 Agent与Workflow对比

在实际应用中，最佳的方案通常是将两者结合起来：在workflow的部分流程环节中调用Agent实现智能决策和弹性；或把workflow添加到Agent的可选工具列表中，提升部分关键任务的可控性。

5 ICT领域智能体落地实践

在深入拆解了通用Al Agent的技术架构之后，我们可以清晰地看到，Al Agent已经发展到可生产落地阶段，正逐步成为驱动现实世界复杂系统智能化演进的核心引擎。但真正落地某个垂域的智能体应用，远不是简单套用上述的Agent架构就能够实现，还需要在深入理解业务的基础上，根据业务场景的特点进行更细致的技术选型、数据处理、工具适配、甚至模型垂域能力训练，并持续迭代优化。

灵犀运维智能体是新华三在Al Agent领域的一次探索和实践。其业务目标是将AI能力原生融入ICT系统的“规、建、维、优”全流程，实现ICT知识问答、故障诊断、智能问询、智能巡检、故障预测、告警降噪/根因分析、安全负载分析等全业务场景的自主化和智能化。如何推进ICT智能体的成功落地，需要深入分析其业务需求和场景特点：

◆工具调用（Action）层面，ICT智能体所依赖的工具链远比通用Agent复杂和专业。它需要与NetConf、SNMP、gRPC等底层网络协议深度集成，调用拓扑发现、配置管理、性能监控、故障诊断等专用工具，并实现对云、网、安、算、存、端全栈资源的统一控制。这些工具不仅接口规范各异、权限体系严格，且多数运行在高安全隔离环境中，要求Agent具备极强的系统级交互能力和安全合规意识。

◆大模型选型方面，通用大模型虽具备强大的语言理解和推理能力，但对ICT领域特有的术语体系、配置逻辑、告警模式、拓扑关系等缺乏深度认知，直接使用会导致理解偏差、决策错误甚至“幻觉”操作。因此，必须通过微调训练以及RAG技术，给大模型注入海量的设备手册、运维知识库、历史工单与专家经验，构建真正“懂ICT”的领域大脑。此外，在故障预警场景还需要时序模型实现准确预测，在故障诊断、根因分析等任务场景，还需结合端侧小模型实现边缘智能。ICT智能体整体采用“云边协同、多模互动”的混合推理架构。

◆数据与记忆管理维度，ICT系统的数据具有典型的多源异构、实时性强、数据密集等特点，涵盖告警流、KPI指标、日志序列、拓扑变化等多个维度。这要求长期记忆系统不仅要支持高效的向量检索，还需融合图数据库、时序数据库等结构化存储，构建“知识+数据”双驱动的记忆架构。短期记忆则需精确追踪跨设备、跨系统的任务上下文，确保在复杂排障或变更流程中不丢失状态、不产生冲突。

图3 新华三灵犀运维智能体

灵犀运维智能体是通用AI技术与行业纵深能力深度融合的一次成功实践。它不仅验证了Al Agent的技术可行性，更探索出一条可复制、可推广的产业智能化路径。在这条路上，新华三凭借深厚的ICT技术积累与前瞻性的AI战略布局，正引领行业从“被动响应”走向“主动自治”，从“人工运维”迈向“智能原生”。

6 智能体未来展望

6.1 核心技术突破

◆多模态协作与感知: Agent将无缝处理文本、图像、语音、视频等信息，实现跨模态联合理解与推理，具备更接近人类的综合感知与自然交互能力。

◆长期记忆与上下文管理: 突破目前短期记忆的限制，Agent能够管理和利用庞大的历史数据和经验，支持动态上下文裁剪与聚焦，进行更复杂的推理和终身学习。

◆可靠性与安全性:大幅提升决策的可解释性和可控性，减少幻觉和异常行为，引入精细化权限控制与风险评估机制，使Agent在医疗、金融等高风险场景中具备可靠性与安全性。

◆自主进化闭环：自评-自改-自部署的“代码级”迭代成为标配，通过自动采集关键指标和决策数据，形成以量化数据为基础的反馈闭环，驱动Agent持续自主进化。

6.2 基础设施演进

◆一体化Agent开发：提供集成优化的Agent开发全工具链，统一运行环境与接口标准，支持模块化可编排与工具链管理和桥接，实现多工具、多Agent间的高效协作与安全管理，配合灵活高效的调试手段，大幅提升Agent开发的效率和质量。

◆生产级资源调度：构建面向生产环境的Agent运行底座，提供资源沙箱与安全隔离机制，支持多Agent并行运行与协同，根据不同Agent的负载和任务需求动态调度与伸缩资源，在保障稳定性与安全性的同时，最大化整体资源利用率。

◆全链路可观测：Agent端到端全链路可观测，自动进行关键指标采集和合规审查，快速定位性能瓶颈或异常输出，及时发现安全隐患，守护Agent的平稳运行。

6.3 更广泛的应用落地

◆个性化超级助理: 成为每个人的专属秘书，主动管理日程、沟通、健康监测和财务规划。

◆自动化科学研究:在生物制药、材料科学等领域，Agent将自主设计实验、执行模拟并发现新知识。

◆智能企业运营: 深度集成到企业资源规划(ERP)和客户关系管理(CRM)系统中，自主优化供应链、自动化客户服务和市场营销。

◆自主软件工程师: 能够理解需求、编写代码、测试和部署完整的软件模块，实现软件开发流程的革命。

◆具身智能: Agent将从数字世界走向物理世界，控制机器人执行现实任务（如仓储、家庭服务）。

7 结束语

Al Agent正从“对话助手”跃升为“数字生命”，以感知-规划-行动-反思的闭环，打通复杂任务最后一公里。未来，多模态、长记忆、自进化将把Agent推向科研、制造、生活每个角落，成为连接数字世界与现实世界的桥梁，开启人机协同的新范式。