《数字化领航》AI应用专刊

创新应用

RAG知识库技术与新华三工程实践

文 | 新华三集团解决方案部郑晓辉

检索增强生成（Retrieval-Augmented Generation, RAG）技术在AI应用开发中非常重要，这门技术经过业界持续的开发，包含了越来越多的功能。新华三在项目实践中，也进行了大量的创新，取得了精确度和性能的大幅度提升。

1 大模型政企应用的发展

图1 大模型政企应用发展历程

如图1所示，大模型应用从最开始的对话式交互，逐步转向RAG知识库应用，以及智能体应用。

最初的应用形式类似于公众熟知的聊天机器人，主要承担基础问答、内容生成和简单对话任务。例如，政府部门利用其进行公文草拟和智能排版，企业则用于生成市场宣传文案。这一阶段的价值在于提升了基础工作效率，但模型仅依赖训练时学到的通用知识，难以处理内部、实时或专业度高的业务问题。

RAG技术的引入是关键转折点。其通过为模型接入外部知识源，有效解决了大模型在政企场景中面临的“知识滞后、专业度不足、幻觉风险”三大难题。这其中，核心价值在于，能将政府或企业内部的规章制度、政策文件、项目报告等海量私有数据，转化为大模型可以实时检索和引用的“外部大脑”。这意味着，模型的回答不再是基于“印象”，而是基于权威、最新的内部知识，准确性和可信度大幅提升。

智能体（AIAgent）代表了大模型应用的更高阶段。它以大模型为“大脑”，赋予其使用工具、规划步骤、执行任务的能力，从而从“问答机”进化成“自动执行工作流”的助手。

综观整个发展路径，RAG的重要性体现在以下两个层面。

承上启下的关键技术：RAG不仅是解决知识增强问题的核心方案，其提供的准确、可追溯的知识基础，也是构建可靠智能体的先决条件。没有RAG，智能体的决策可能建立在错误信息之上。

政企场景的“刚需”：对于严肃的业务场景，结果的准确性、安全性和可解释性至关重要。RAG技术知识库具有可更新、成本相对较低且流程透明可追溯的特性，使其成为目前政企在知识管理类应用中性价比最高、最务实可靠的选择。

2 基础RAG知识库

RAG是一种先进的人工智能技术范式，它通过动态地从外部知识源检索信息，来增强大型语言模型（LLM）的生成能力。当LLM需要回答问题或生成文本时，它不再仅仅依赖其内部预训练过程中固化的、过时的参数化知识，而是首先利用信息检索系统，从一个或多个外部知识库中查找与当前任务最相关的最新信息，然后将这些检索到的信息作为“上下文”或“参考资料”，一并提供给生成模型，以指导其生成更准确、更具时效性、更可靠且内容更丰富的回答。

RAG技术解决了传统LLM面临的几个根本性挑战。

知识截止（Knowledge Cutoff）：LLM的知识被冻结在其训练数据截止的那个时间点，无法获知此后发生的新事件或信息。RAG通过连接动态更新的外部知识库，赋予了LLM实时获取最新知识的能力。

内容幻觉（Hallucination）：LLM在回答其知识范围之外或不确定的问题时，有时会“编造”看似合理但实际上是错误的信息。RAG通过提供有事实依据的、可验证的检索内容，极大地约束了模型的生成过程，显著降低了幻觉的发生率。

2.1 RAG工作流程

图2 RAG检索主要流程

RAG检索包括以下几个主要流程。

1）源文件切片/矢量化：由于语言模型有输入长度限制，且细粒度的文本块更利于精准检索，需要将长文档切分成更小的文本块（chunk）。关键在于平衡块的大小：大块包含更多上下文但噪声也多，小块更精准但可能信息不完整。常用策略包括固定长度分割、按句分割、按内容结构（如章节）分割等。实践中还会采用滑动窗口或层级分割（如父子文档关系）来优化。

向量化：使用Embedding模型将文本块转化为向量（一组数字）。这个向量就像文本的“数学指纹”，能够表征其语义。高质量的Embedding模型（如BGE、OpenAI的text-embedding系列）对于后续检索的准确性至关重要。源文件经过切片/矢量化之后存入专门的向量数据库（如Chroma、FAISS、Milvus）中，完成了知识库的创建。

2）用户提问矢量化：将用户查询同样转化为向量。

3）知识库检索：用查询向量在向量数据库中进行相似度搜索，常用余弦相似度（余弦可以计算两个向量的夹角大小，当夹角为零0时值为1，说明两个矢量方向相同，可以理解为语义接近），找到与问题最相关的Top K个文本块。

4）提示词增强：将检索到的文本块作为附加的上下文信息，与用户原始问题一起填充到预设的提示词模板中，形成一个“增强”的提示词。

5）答案生成：将这个富含信息的提示词交给LLM，由其生成最终答案。

3 RAG技术在实践中的增强

在基础RAG的应用中，业界对基础RAG技术做了很多改进，例如文件解析、多策略切片、问题理解、混合检索、多路召回、重排序等，以提高检索精度和响应速度。

新华三集团在内部AI系统建设，以及大量外部项目实践中，进一步深化了这些技术。

图3 RAG技术改进

（1）意图识别

用于对用户问题的深入理解。基于用户最近五轮的问题和答案，通过意图识别模型，更好地理解用户提问，生成一个真实问题。

（2）提问理解

用户原始查询可能存在模糊或不完整的问题。通过LLM对用户问题的类型进行分析，针对不同类型进行加工，比如提问拓展、提问改写、子问题分解等可以从不同角度检索信息，并将结果融合，从而覆盖更全面的知识。

（3）源文件解析增强

文件增强支持：支持主要的非结构化文件类型，例如Word、Excel、PPT、PDF、Txt、Html、Markdown等；在一般RAG基础上，做了多种增强。例如Excel，增加了异形表格的识别。对于重要的文档，把表格和图片解析为Markdown格式再矢量化，查询准确率会有很大提升。Word可以做标题拼接，比如自动把一级标题加到二级标题之前，方便矢量模型理解。

文本切分策略：支持四种切分策略，包括自动切分、层级分段、语义切分、Excel切分。

（4）混合检索

在知识库项目中，传统的搜索引擎如ElasticSearch是采用关键词（稀疏）检索，现代的RAG方法是采用向量（稠密）检索。单纯的向量检索或关键词检索都有其局限性。混合检索结合了BM25等传统检索算法的关键词匹配能力和向量检索的语义理解能力，通过对两者的结果进行加权融合（如RRF算法），能够显著提升检索的相关性和鲁棒性。有研究表明，混合检索相比单一检索方式能将准确率提升超过25% 。

◆稠密检索（Dense Retrieval）

优点：擅长理解语义和概念上的相似性，能够召回与查询在意义上相关但措辞完全不同的文档。

缺点：可能忽略关键词的精确匹配，且对领域外（OOD）术语不敏感。计算成本相对较高。

◆稀疏检索（Sparse Retrieval, e.g., BM25）

优点：基于关键词匹配，速度快，计算效率高，对特定术语、ID号等精确匹配非常有效。

缺点：无法理解同义词或概念相关性，语义理解能力弱。

◆混合检索（Hybrid Search）

优点：结合两者的优势，既能进行语义匹配也能进行关键词匹配，通常能达到最高的召回率和精确率。在实际项目中，混合检索表现均优于单一检索方法。

缺点：系统架构更复杂，需要维护两套索引。端到端延迟可能会略有增加，因为它需要执行两次检索并对结果进行融合。

（5）优化和纠错

答案优化：对于检索出的答案，系统会给出可靠性的得分，当得分小于某个阈值（如0.7），系统可以再加入联网检索的信息。

回流纠错：用户可以通过点赞点踩等方式，对答案给予评价、反馈，可以优化知识库的正确性。

和开源知识库的功能对比，外部市场上，开源知识库dify占有率比较高。功能对比如表1、表2所示。

表1 知识库管理功能对比

表2 文档管理&文档解析能力对比

4 其他AI技术配合

在实际项目中，RAG通常要结合多模共治、提示词、Text2SQL、逻辑判断、工作流等技术相结合，以完成特定场景目标，并达到用户满意的精确度和速度。

5 未来展望

传统RAG将知识视为孤立的文本片段，而GraphRAG通过构建知识图谱，将知识组织成一张相互连接的网络。这将在以下方面带来质的飞跃。

多跳推理：能够回答像“供应链中断如何间接影响远端市场”这类需要串联多个事实的复杂问题。传统RAG对此往往无能为力，而GraphRAG可以沿着图谱中的关系路径进行推理。

全局摘要：可以对海量文档进行主题聚类和摘要，回答“整个文档库涉及哪些主要趋势”这类宏观问题，避免传统RAG“只见树木，不见森林”的局限。

可解释性：答案的生成过程可以追溯到图谱中具体的节点和关系链条，如同提供了“推理过程”，这在医疗、法律等高风险领域至关重要。