CXYY    创新应用
创新应用
RAG知识库技术与新华三工程实践
文 | 新华三集团解决方案部 郑晓辉

检索增强生成(Retrieval-Augmented Generation, RAG)技术在AI应用开发中非常重要,这门技术经过业界持续的开发,包含了越来越多的功能。新华三在项目实践中,也进行了大量的创新,取得了精确度和性能的大幅度提升。

1 大模型政企应用的发展

图1 大模型政企应用发展历程

如图1所示,大模型应用从最开始的对话式交互,逐步转向RAG知识库应用,以及智能体应用。

最初的应用形式类似于公众熟知的聊天机器人,主要承担基础问答、内容生成和简单对话任务。例如,政府部门利用其进行公文草拟和智能排版,企业则用于生成市场宣传文案。这一阶段的价值在于提升了基础工作效率,但模型仅依赖训练时学到的通用知识,难以处理内部、实时或专业度高的业务问题。

RAG技术的引入是关键转折点。其通过为模型接入外部知识源,有效解决了大模型在政企场景中面临的“知识滞后、专业度不足、幻觉风险”三大难题。这其中,核心价值在于,能将政府或企业内部的规章制度、政策文件、项目报告等海量私有数据,转化为大模型可以实时检索和引用的“外部大脑”。这意味着,模型的回答不再是基于“印象”,而是基于权威、最新的内部知识,准确性和可信度大幅提升。

智能体(AIAgent)代表了大模型应用的更高阶段。它以大模型为“大脑”,赋予其使用工具、规划步骤、执行任务的能力,从而从“问答机”进化成“自动执行工作流”的助手。

综观整个发展路径,RAG的重要性体现在以下两个层面。

承上启下的关键技术:RAG不仅是解决知识增强问题的核心方案,其提供的准确、可追溯的知识基础,也是构建可靠智能体的先决条件。没有RAG,智能体的决策可能建立在错误信息之上。

政企场景的“刚需”:对于严肃的业务场景,结果的准确性、安全性和可解释性至关重要。RAG技术知识库具有可更新、成本相对较低且流程透明可追溯的特性,使其成为目前政企在知识管理类应用中性价比最高、最务实可靠的选择。

2 基础RAG知识库

RAG是一种先进的人工智能技术范式,它通过动态地从外部知识源检索信息,来增强大型语言模型(LLM)的生成能力 。当LLM需要回答问题或生成文本时,它不再仅仅依赖其内部预训练过程中固化的、过时的参数化知识,而是首先利用信息检索系统,从一个或多个外部知识库中查找与当前任务最相关的最新信息,然后将这些检索到的信息作为“上下文”或“参考资料”,一并提供给生成模型,以指导其生成更准确、更具时效性、更可靠且内容更丰富的回答 。

RAG技术解决了传统LLM面临的几个根本性挑战。

知识截止(Knowledge Cutoff):LLM的知识被冻结在其训练数据截止的那个时间点,无法获知此后发生的新事件或信息 。RAG通过连接动态更新的外部知识库,赋予了LLM实时获取最新知识的能力。

内容幻觉(Hallucination):LLM在回答其知识范围之外或不确定的问题时,有时会“编造”看似合理但实际上是错误的信息 。RAG通过提供有事实依据的、可验证的检索内容,极大地约束了模型的生成过程,显著降低了幻觉的发生率。

2.1 RAG工作流程

图2 RAG检索主要流程

RAG检索包括以下几个主要流程。

1)源文件切片/矢量化:由于语言模型有输入长度限制,且细粒度的文本块更利于精准检索,需要将长文档切分成更小的文本块(chunk)。关键在于平衡块的大小:大块包含更多上下文但噪声也多,小块更精准但可能信息不完整。常用策略包括固定长度分割、按句分割、按内容结构(如章节)分割等。实践中还会采用滑动窗口或层级分割(如父子文档关系)来优化。

向量化:使用Embedding模型将文本块转化为向量(一组数字)。这个向量就像文本的“数学指纹”,能够表征其语义。高质量的Embedding模型(如BGE、OpenAI的text-embedding系列)对于后续检索的准确性至关重要。源文件经过切片/矢量化之后存入专门的向量数据库(如Chroma、FAISS、Milvus)中,完成了知识库的创建。

2)用户提问矢量化:将用户查询同样转化为向量。

3)知识库检索:用查询向量在向量数据库中进行相似度搜索,常用余弦相似度(余弦可以计算两个向量的夹角大小,当夹角为零0时值为1,说明两个矢量方向相同,可以理解为语义接近),找到与问题最相关的Top K个文本块。

4)提示词增强:将检索到的文本块作为附加的上下文信息,与用户原始问题一起填充到预设的提示词模板中,形成一个“增强”的提示词。

5)答案生成:将这个富含信息的提示词交给LLM,由其生成最终答案。

3 RAG技术在实践中的增强

在基础RAG的应用中,业界对基础RAG技术做了很多改进,例如文件解析、多策略切片、问题理解、混合检索、多路召回、重排序等,以提高检索精度和响应速度。

新华三集团在内部AI系统建设,以及大量外部项目实践中,进一步深化了这些技术。

图3 RAG技术改进

(1)意图识别

用于对用户问题的深入理解。基于用户最近五轮的问题和答案,通过意图识别模型,更好地理解用户提问,生成一个真实问题。

(2)提问理解

用户原始查询可能存在模糊或不完整的问题。通过LLM对用户问题的类型进行分析,针对不同类型进行加工,比如提问拓展、提问改写、子问题分解等可以从不同角度检索信息,并将结果融合,从而覆盖更全面的知识。

(3)源文件解析增强

文件增强支持:支持主要的非结构化文件类型,例如Word、Excel、PPT、PDF、Txt、Html、Markdown等;在一般RAG基础上,做了多种增强。例如Excel,增加了异形表格的识别。对于重要的文档,把表格和图片解析为Markdown格式再矢量化,查询准确率会有很大提升。Word可以做标题拼接,比如自动把一级标题加到二级标题之前,方便矢量模型理解。

文本切分策略:支持四种切分策略,包括自动切分、层级分段、语义切分、Excel切分。

(4)混合检索

在知识库项目中,传统的搜索引擎如ElasticSearch是采用关键词(稀疏)检索,现代的RAG方法是采用向量(稠密)检索。单纯的向量检索或关键词检索都有其局限性。混合检索结合了BM25等传统检索算法的关键词匹配能力和向量检索的语义理解能力,通过对两者的结果进行加权融合(如RRF算法),能够显著提升检索的相关性和鲁棒性。有研究表明,混合检索相比单一检索方式能将准确率提升超过25% 。

◆稠密检索(Dense Retrieval)

优点:擅长理解语义和概念上的相似性,能够召回与查询在意义上相关但措辞完全不同的文档。

缺点:可能忽略关键词的精确匹配,且对领域外(OOD)术语不敏感。计算成本相对较高。

◆稀疏检索(Sparse Retrieval, e.g., BM25)

优点:基于关键词匹配,速度快,计算效率高,对特定术语、ID号等精确匹配非常有效。

缺点:无法理解同义词或概念相关性,语义理解能力弱。

◆混合检索(Hybrid Search)

优点:结合两者的优势,既能进行语义匹配也能进行关键词匹配,通常能达到最高的召回率和精确率。在实际项目中,混合检索表现均优于单一检索方法。

缺点:系统架构更复杂,需要维护两套索引。端到端延迟可能会略有增加,因为它需要执行两次检索并对结果进行融合。

(5)优化和纠错

答案优化:对于检索出的答案,系统会给出可靠性的得分,当得分小于某个阈值(如0.7),系统可以再加入联网检索的信息。

回流纠错:用户可以通过点赞点踩等方式,对答案给予评价、反馈,可以优化知识库的正确性。

和开源知识库的功能对比,外部市场上,开源知识库dify占有率比较高。功能对比如表1、表2所示。

表1 知识库管理功能对比

表2 文档管理&文档解析能力对比

4 其他AI技术配合

在实际项目中,RAG通常要结合多模共治、提示词、Text2SQL、逻辑判断、工作流等技术相结合,以完成特定场景目标,并达到用户满意的精确度和速度。

5 未来展望

传统RAG将知识视为孤立的文本片段,而GraphRAG通过构建知识图谱,将知识组织成一张相互连接的网络。这将在以下方面带来质的飞跃。

多跳推理:能够回答像“供应链中断如何间接影响远端市场”这类需要串联多个事实的复杂问题。传统RAG对此往往无能为力,而GraphRAG可以沿着图谱中的关系路径进行推理。

全局摘要:可以对海量文档进行主题聚类和摘要,回答“整个文档库涉及哪些主要趋势”这类宏观问题,避免传统RAG“只见树木,不见森林”的局限。

可解释性:答案的生成过程可以追溯到图谱中具体的节点和关系链条,如同提供了“推理过程”,这在医疗、法律等高风险领域至关重要。

关闭