《数字化领航》AI技术专刊

前沿技术

面向大模型微调的AI数据工程范式：构建大模型高质量数据集

文 | 新华三集团云与计算存储产品线史宁宁

摘要

针对大模型时代非结构化数据治理难、高质量微调数据稀缺等挑战，本文提出一种适配AI原生应用的新型数据工程范式。文章分析了从传统结构化报表向“多模态、高频更新、强治理”的AI数据架构演进趋势，并详细介绍了新华三绿洲AI数据工程平台的实践方案。该方案以AI数据湖为底座，构建涵盖多源归集、全链路治理、多模态算子处理及“LLM+知识图谱”数据合成的闭环体系。通过自动化预处理流水线与“训练-反馈-回流”机制，有效解决了数据发现、质量控制及RLHF数据获取难题，实现了从原始数据到高质量语料的高效转化，为大模型训练与持续进化提供坚实的数据供给保障。

关键词

AI数据工程；非结构化数据治理；多模态数据处理；数据合成；大模型微调；绿洲平台

引言

随着以DeepSeek为代表的MoE架构大模型技术持续演进，大模型从少数头部厂商专属走向可自行训练与深度改造的开放生态，业界共识已从早期单纯的“堆参数、拼算力”，逐步转向“数据–模型–算力”协同优化的新阶段，数据对大模型性能的决定性作用愈发凸显，预训练阶段的数据覆盖广度与多样性，直接影响模型的基础认知边界，微调阶段的数据对齐质量与偏差控制，决定模型能否精准适配特定业务场景，而RAG/知识增强阶段知识库的数据新鲜度与可控性，则直接关系到模型输出的可靠性与时效性。传统数据工程体系以结构化数据报表和数据中台为核心，其设计初衷是支撑报表分析与简单机器学习任务，难以满足大模型训练微调、RAG应用及Agent开发对“多模态、高频更新、强治理”的严苛数据需求。在此背景下，新的AI数据工程范式应运而生。这一范式并非简单为数据工程贴上“AI”标签，而是围绕AI工作负载的全流程特性，重塑了从数据采集、处理、存储到服务的方法论与技术栈，旨在构建适配AI原生应用的数据供给体系。

1 业务需求变革驱动数据架构升级

过去十年，企业数字化转型的核心关键词集中在“大数据”、“数据中台”、“湖仓一体”等，数据工程师的工作重点在于构建ETL数据处理管道、数据仓库及基础数据治理体系，为报表分析和简单机器学习模型提供支撑。然而，近两年以DeepSeek为代表的开源大模型技术突破，将AI能力从“长周期、高成本”的定制化开发，推向“开箱即用、能力普适”的基础设施层面。这一变革使得企业能够将专属的行业知识、内部文档及专家经验转化为训练数据，深度定制领域大模型成为可能，也由此引发了5数据架构的根本性变革。

1.1 数据架构升级的核心方向

传统大数据工程体系以结构化数据和批处理为核心，在AI场景下逐渐暴露出明显局限，数据架构升级呈现三大核心方向，如图1所示。

图1数据架构升级核心方向

◆数据类型从“结构化为主”转向“非结构化、多模态为主”：大模型训练与AI应用不仅需要传统数据库表中的结构化数据，更依赖文档、图片、音视频、图纸等非结构化数据，以及跨模态融合的数据作为支撑；

◆技术架构从“传统数据仓库”演变为“AI数据湖”：传统Hadoop、MPP等大数据技术构建的数据仓库，难以应对海量非结构化数据的存储与管理需求，以分布式存储为核心的AI数据湖成为新的技术底座；

◆业务要求从“报表级准确”升级为“模型级可解释、可追溯”：AI应用对数据的要求不再局限于统计层面的准确性，更强调数据的可解释性、全链路追溯性，以及知识库的动态更新与智能化管理能力。

1.2 非结构化数据利用的核心痛点

据IDC预测，2025年全球数据中超过80%是非结构化数据，未来几年这一比例将进一步攀升至90%以上。然而，对于绝大多数企业而言，非结构化数据仍是一座尚未充分开发的“数据冰山”—水面之上可见且被有效利用的部分极少，水面之下则是庞大、无序、蕴含巨大潜在价值的海量数据。导致这一现象的核心痛点集中在以下四个方面。

◆数据发现与理解难：非结构化数据散落在文件服务器、NAS、对象存储、云盘、邮件系统、各类业务应用等多个载体中，格式混杂且缺乏统一的数据地图，企业无法以全局视角查看、管理数据资产，难以快速定位有价值的数据资源。

◆数据治理与质量控制难：非结构化文件体量庞大，缺乏自动化的内容提取与智能打标能力，难以建立规范的数据目录，导致元数据缺失严重；传统文件系统的权限管理过于粗放，无法满足细粒度、基于角色的访问控制需求；同时，敏感信息可能隐藏在文档、图片、音视频等数据中，难以精准识别与保护，无法放心用于模型训练。

◆数据整合与处理难：非结构化数据格式复杂多样，视频、音频、工程图纸等均需专门的解析库与预处理工具，提取有意义的特征和信息需要强大的AI数据处理算子能力支撑，技术门槛高、处理效率低。

◆模型微调与强化学习数据获取难：大模型微调与强化学习（RLHF）对训练数据的质量、一致性、准确性有极高要求。数据构造过程复杂，需从非结构化资料中提炼高质量样本并保持逻辑严谨与风格统一；尤其在强化学习阶段，需先通过模型生成输出，再获取人类反馈进行迭代优化，整体成本高、周期长。

2 绿洲AI数据工程平台：破解AI时代用数难题

为应对AI时代数据需求的核心痛点，新华三绿洲AI数据平台构建了以“AI数据湖”为核心底座的闭环解决方案，整合非结构化数据全生命周期管理与端到端数据处理能力，从根源上解决数据“存、管、用”的全链路问题，为企业AI原生应用开发提供稳定、可靠、高效的数据供给。

图2 新华三绿洲AI数据平台架构

2.1 AI数据湖：构建全局可视的数据资产底座

绿洲AI数据湖作为大模型数据工程的核心底座，首要解决海量非结构化数据的归集与管理难题。

图3 新华三绿洲AI数据湖核心能力

其核心能力体现在三个维度。

◆多源数据统一归集：通过统一数据采集链路与分布式存储架构，支持将散落在本地文件系统、FTP服务器、云存储、业务系统中的文档、音视频、图纸、日志数据、文本语料、地理时空数据等多类型非结构化数据集中纳管，实现“一次采集、全局可用”。

◆全生命周期可管可控：支持元数据智能解析与自动打标、数据分级分类、细粒度权限管理等功能，通过数据血缘追踪、分区配额控制等机制，确保数据从入湖到使用的全流程可管、可追溯。

◆全局数据资产可视：构建统一的数据资源地图，支持多模态分类检索与数据分布洞察，帮助企业建立全局视角的数据资产视图，彻底解决数据发现与理解难题，让大模型训练供数效率倍增。

2.2 数据处理工作流：打造高质量数据集生产流水线

基于AI数据湖，绿洲AI数据平台构建了涵盖“筛选-清洗-过滤-增强”的全流程数据处理工作流，旨在提升数据集的有效性、可靠性与隐私性，为大模型训练提供高质量数据支撑。

图4 数据处理向导工作流

其核心特性包括以下方面。

◆自动化数据预处理：集成多模态数据解析引擎，支持文本、图片、音频、视频、日志、设备信号等多元数据的自动化解析，降低非结构化数据预处理的技术门槛。

◆全方位数据质量优化：通过数据去重、异常值处理、数据归一化、数据标准化等功能，解决数据重复、缺失、不一致、噪声等质量问题；同时内置敏感信息识别与数据脱敏算子，确保数据隐私安全合规。

◆灵活的流程编排能力：支持用户根据业务需求自定义数据处理流程，实现从原始数据到高质量训练数据的自动化生产，大幅提升数据处理效率。

2.3 多模态数据处理算子库：强化数据价值提取能力

针对非结构化数据处理技术门槛高的痛点，绿洲AI数据平台提供了强大的多模态数据处理算子库（如图5所示），覆盖数据处理全场景需求：

图5 绿洲AI数据平台多模态数据处理算子库

◆基础处理算子：包括数据清洗（去重、缺失值填充、异常值处理）、数据转换（格式转换、数据归一化、标准化）、数据聚合、数据过滤等基础功能，满足数据预处理的核心需求。

◆高级增强算子：提供数据增强（文本同义改写、图片裁剪/旋转、音频降噪等）、数据降维、数据插值等高级功能，帮助提升数据集的多样性与代表性。

◆多模态专属算子：针对文本、图片、语音、视频等不同模态数据，提供专属的特征提取、内容解析、语义理解算子，支持从复杂非结构化数据中高效提取有价值信息。

2.4 数据合成：突破微调数据稀缺瓶颈

针对大模型微调数据稀缺、人工制备成本高的问题，绿洲AI数据平台采用“LLM+知识图谱”的创新方案进行数据合成，大幅降低高质量微调数据的获取难度。

其核心流程如下。

图6 数据合成方案流程示意

◆知识图谱构建：对原始文档进行语义分块，通过合成器模型自动提取实体与关系，构建细粒度知识图谱，确保数据的结构化与逻辑性。

◆理解评估：针对知识图谱中的每个三元组知识点，生成改写后的肯定句与否定句，通过受训模型对句子置信度进行判断，计算预期校准误差（ECE）与理解损失（ComprehensionLoss），精准识别模型知识薄弱点。

◆智能子图遍历：采用K跳邻域子图采样策略，从知识图谱中提取子图作为QA生成的基本单元。采样策略支持深度控制（子图跳数）、长度控制（总token数限制）、价值筛选（按理解损失或随机筛选高价值边），确保数据分布均衡且覆盖核心知识。

◆多样化QA生成：基于子图类型生成三类QA对，兼顾基础知识点与复杂推理需求。

◆原子QA：基于单节点或边，生成基础知识点的问答，强化模型基础认知。

◆聚合QA：整合子图中多个实体与关系，生成连贯的长文本答案及对应问题，提升模型内容整合能力。

◆多跳QA：针对实体间的多步关联，生成需推理的问答对，强化模型的复杂推理能力。

相比传统人工抽取方式，该方案有效解决了“事实不准确、知识结构表达浅显、长尾知识覆盖不足”等问题，同时避免了人工抽取的高成本与低效率。

2.5 数据标注与数据回流闭环：驱动模型持续进化

大模型监督微调（SFT）与RLHF中的奖励模型训练，极度依赖高质量标注数据。绿洲AI数据平台通过“人工+机器”协同标注与“训练-反馈-回流”闭环机制，构建了可持续的高质量数据供给体系。

◆高效标注工具链：整合Self-Instruct、Evol-Instruct等自动指令生成与演化方法，能够自动生成大规模初始指令数据，再通过人工筛选、修正与补充，构建“大规模、高质量”的微调数据集，平衡标注效率与数据质量。

◆推理数据回流机制：在RLHF框架下，将用户对模型输出的显性反馈（如点赞、点踩、编辑）与隐性反馈（如停留时间、后续交互行为）作为新的标注数据，回流至训练数据集，持续更新奖励模型。

◆全流程闭环优化：形成“高质量标注数据→模型训练调优→部署推理→用户反馈→数据回流→模型迭代”的完整闭环，确保模型能够持续适配动态变化的业务需求与人类偏好，实现能力的持续进化。

3 结束语

AI时代的核心竞争力，本质上是数据供给能力的竞争。大模型的性能上限不再由参数规模或算力强弱单独决定，而是取决于“数据–模型–算力”的协同优化水平，其中数据的质量、多样性与治理水平更是起到了基础性、决定性作用。传统数据工程体系已难以适配AI原生应用的需求，构建以非结构化数据为核心、全链路可控、高效率供给的AI数据工程范式，成为企业数字化转型的关键课题。

新华三绿洲AI数据工程平台通过“AI数据湖+全流程数据处理+闭环数据供给”的创新架构，系统性解决了非结构化数据“发现难、治理难、处理难、获取难”的核心痛点，为大模型训练微调与强化学习提供了稳定、高效、高质量的数据支撑。其核心价值不仅在于实现了数据资产的规范化管理，更在于构建了“数据-模型-应用”的正向循环，数据质量的提升直接推动模型性能优化，模型的广泛应用又能产生更多高质量反馈数据，进而反哺数据体系的持续完善。未来，随着大模型技术的进一步普及与深化，AI数据工程将朝着“更智能的自动化处理、更精细的治理体系、更灵活的场景适配”方向演进。新华三绿洲AI数据平台将持续聚焦AI数据供给的核心需求，不断强化多模态数据处理、知识图谱构建、数据合成与回流等关键能力，助力企业充分释放非结构化数据的潜在价值，加速AI原生应用的落地与创新，在AI时代的竞争中抢占先机。我们相信，以数据为核心驱动力的AI变革，将为企业创造前所未有的增长空间，而完善的数据工程体系，正是解锁这一潜力的关键钥匙。