QYJS    前沿技术
前沿技术
面向大模型微调的AI数据工程范式:构建大模型高质量数据集
文 | 新华三集团云与计算存储产品线 史宁宁

摘要

针对大模型时代非结构化数据治理难、高质量微调数据稀缺等挑战,本文提出一种适配AI原生应用的新型数据工程范式。文章分析了从传统结构化报表向“多模态、高频更新、强治理”的AI数据架构演进趋势,并详细介绍了新华三绿洲AI数据工程平台的实践方案。该方案以AI数据湖为底座,构建涵盖多源归集、全链路治理、多模态算子处理及“LLM+知识图谱”数据合成的闭环体系。通过自动化预处理流水线与“训练-反馈-回流”机制,有效解决了数据发现、质量控制及RLHF数据获取难题,实现了从原始数据到高质量语料的高效转化,为大模型训练与持续进化提供坚实的数据供给保障。

关键词

AI数据工程;非结构化数据治理;多模态数据处理;数据合成;大模型微调;绿洲平台

引言

随着以DeepSeek为代表的MoE架构大模型技术持续演进,大模型从少数头部厂商专属走向可自行训练与深度改造的开放生态,业界共识已从早期单纯的“堆参数、拼算力”,逐步转向“数据–模型–算力”协同优化的新阶段,数据对大模型性能的决定性作用愈发凸显,预训练阶段的数据覆盖广度与多样性,直接影响模型的基础认知边界,微调阶段的数据对齐质量与偏差控制,决定模型能否精准适配特定业务场景,而RAG/知识增强阶段知识库的数据新鲜度与可控性,则直接关系到模型输出的可靠性与时效性。传统数据工程体系以结构化数据报表和数据中台为核心,其设计初衷是支撑报表分析与简单机器学习任务,难以满足大模型训练微调、RAG应用及Agent开发对“多模态、高频更新、强治理”的严苛数据需求。在此背景下,新的AI数据工程范式应运而生。这一范式并非简单为数据工程贴上“AI”标签,而是围绕AI工作负载的全流程特性,重塑了从数据采集、处理、存储到服务的方法论与技术栈,旨在构建适配AI原生应用的数据供给体系。

1 业务需求变革驱动数据架构升级

过去十年,企业数字化转型的核心关键词集中在“大数据”、“数据中台”、“湖仓一体”等,数据工程师的工作重点在于构建ETL数据处理管道、数据仓库及基础数据治理体系,为报表分析和简单机器学习模型提供支撑。然而,近两年以DeepSeek为代表的开源大模型技术突破,将AI能力从“长周期、高成本”的定制化开发,推向“开箱即用、能力普适”的基础设施层面。这一变革使得企业能够将专属的行业知识、内部文档及专家经验转化为训练数据,深度定制领域大模型成为可能,也由此引发了5数据架构的根本性变革。

1.1 数据架构升级的核心方向

传统大数据工程体系以结构化数据和批处理为核心,在AI场景下逐渐暴露出明显局限,数据架构升级呈现三大核心方向,如图1所示。

图1数据架构升级核心方向

◆数据类型从“结构化为主”转向“非结构化、多模态为主”:大模型训练与AI应用不仅需要传统数据库表中的结构化数据,更依赖文档、图片、音视频、图纸等非结构化数据,以及跨模态融合的数据作为支撑;

◆技术架构从“传统数据仓库”演变为“AI数据湖”:传统Hadoop、MPP等大数据技术构建的数据仓库,难以应对海量非结构化数据的存储与管理需求,以分布式存储为核心的AI数据湖成为新的技术底座;

◆业务要求从“报表级准确”升级为“模型级可解释、可追溯”:AI应用对数据的要求不再局限于统计层面的准确性,更强调数据的可解释性、全链路追溯性,以及知识库的动态更新与智能化管理能力。

1.2 非结构化数据利用的核心痛点

据IDC预测,2025年全球数据中超过80%是非结构化数据,未来几年这一比例将进一步攀升至90%以上。然而,对于绝大多数企业而言,非结构化数据仍是一座尚未充分开发的“数据冰山”—水面之上可见且被有效利用的部分极少,水面之下则是庞大、无序、蕴含巨大潜在价值的海量数据。导致这一现象的核心痛点集中在以下四个方面。

◆数据发现与理解难:非结构化数据散落在文件服务器、NAS、对象存储、云盘、邮件系统、各类业务应用等多个载体中,格式混杂且缺乏统一的数据地图,企业无法以全局视角查看、管理数据资产,难以快速定位有价值的数据资源。

◆数据治理与质量控制难:非结构化文件体量庞大,缺乏自动化的内容提取与智能打标能力,难以建立规范的数据目录,导致元数据缺失严重;传统文件系统的权限管理过于粗放,无法满足细粒度、基于角色的访问控制需求;同时,敏感信息可能隐藏在文档、图片、音视频等数据中,难以精准识别与保护,无法放心用于模型训练。

◆数据整合与处理难:非结构化数据格式复杂多样,视频、音频、工程图纸等均需专门的解析库与预处理工具,提取有意义的特征和信息需要强大的AI数据处理算子能力支撑,技术门槛高、处理效率低。

◆模型微调与强化学习数据获取难:大模型微调与强化学习(RLHF)对训练数据的质量、一致性、准确性有极高要求。数据构造过程复杂,需从非结构化资料中提炼高质量样本并保持逻辑严谨与风格统一;尤其在强化学习阶段,需先通过模型生成输出,再获取人类反馈进行迭代优化,整体成本高、周期长。

2 绿洲AI数据工程平台:破解AI时代用数难题

为应对AI时代数据需求的核心痛点,新华三绿洲AI数据平台构建了以“AI数据湖”为核心底座的闭环解决方案,整合非结构化数据全生命周期管理与端到端数据处理能力,从根源上解决数据“存、管、用”的全链路问题,为企业AI原生应用开发提供稳定、可靠、高效的数据供给。

图2 新华三绿洲AI数据平台架构

2.1 AI数据湖:构建全局可视的数据资产底座

绿洲AI数据湖作为大模型数据工程的核心底座,首要解决海量非结构化数据的归集与管理难题。

图3 新华三绿洲AI数据湖核心能力

其核心能力体现在三个维度。

◆多源数据统一归集:通过统一数据采集链路与分布式存储架构,支持将散落在本地文件系统、FTP服务器、云存储、业务系统中的文档、音视频、图纸、日志数据、文本语料、地理时空数据等多类型非结构化数据集中纳管,实现“一次采集、全局可用”。

◆全生命周期可管可控:支持元数据智能解析与自动打标、数据分级分类、细粒度权限管理等功能,通过数据血缘追踪、分区配额控制等机制,确保数据从入湖到使用的全流程可管、可追溯。

◆全局数据资产可视:构建统一的数据资源地图,支持多模态分类检索与数据分布洞察,帮助企业建立全局视角的数据资产视图,彻底解决数据发现与理解难题,让大模型训练供数效率倍增。

2.2 数据处理工作流:打造高质量数据集生产流水线

基于AI数据湖,绿洲AI数据平台构建了涵盖“筛选-清洗-过滤-增强”的全流程数据处理工作流,旨在提升数据集的有效性、可靠性与隐私性,为大模型训练提供高质量数据支撑。

图4 数据处理向导工作流

其核心特性包括以下方面。

◆自动化数据预处理:集成多模态数据解析引擎,支持文本、图片、音频、视频、日志、设备信号等多元数据的自动化解析,降低非结构化数据预处理的技术门槛。

◆全方位数据质量优化:通过数据去重、异常值处理、数据归一化、数据标准化等功能,解决数据重复、缺失、不一致、噪声等质量问题;同时内置敏感信息识别与数据脱敏算子,确保数据隐私安全合规。

◆灵活的流程编排能力:支持用户根据业务需求自定义数据处理流程,实现从原始数据到高质量训练数据的自动化生产,大幅提升数据处理效率。

2.3 多模态数据处理算子库:强化数据价值提取能力

针对非结构化数据处理技术门槛高的痛点,绿洲AI数据平台提供了强大的多模态数据处理算子库(如图5所示),覆盖数据处理全场景需求:

图5 绿洲AI数据平台多模态数据处理算子库

◆基础处理算子:包括数据清洗(去重、缺失值填充、异常值处理)、数据转换(格式转换、数据归一化、标准化)、数据聚合、数据过滤等基础功能,满足数据预处理的核心需求。

◆高级增强算子:提供数据增强(文本同义改写、图片裁剪/旋转、音频降噪等)、数据降维、数据插值等高级功能,帮助提升数据集的多样性与代表性。

◆多模态专属算子:针对文本、图片、语音、视频等不同模态数据,提供专属的特征提取、内容解析、语义理解算子,支持从复杂非结构化数据中高效提取有价值信息。

2.4 数据合成:突破微调数据稀缺瓶颈

针对大模型微调数据稀缺、人工制备成本高的问题,绿洲AI数据平台采用“LLM+知识图谱”的创新方案进行数据合成,大幅降低高质量微调数据的获取难度。

其核心流程如下。

图6 数据合成方案流程示意

◆知识图谱构建:对原始文档进行语义分块,通过合成器模型自动提取实体与关系,构建细粒度知识图谱,确保数据的结构化与逻辑性。

◆理解评估:针对知识图谱中的每个三元组知识点,生成改写后的肯定句与否定句,通过受训模型对句子置信度进行判断,计算预期校准误差(ECE)与理解损失(ComprehensionLoss),精准识别模型知识薄弱点。

◆智能子图遍历:采用K跳邻域子图采样策略,从知识图谱中提取子图作为QA生成的基本单元。采样策略支持深度控制(子图跳数)、长度控制(总token数限制)、价值筛选(按理解损失或随机筛选高价值边),确保数据分布均衡且覆盖核心知识。

◆多样化QA生成:基于子图类型生成三类QA对,兼顾基础知识点与复杂推理需求。

◆原子QA:基于单节点或边,生成基础知识点的问答,强化模型基础认知。

◆聚合QA:整合子图中多个实体与关系,生成连贯的长文本答案及对应问题,提升模型内容整合能力。

◆多跳QA:针对实体间的多步关联,生成需推理的问答对,强化模型的复杂推理能力。

相比传统人工抽取方式,该方案有效解决了“事实不准确、知识结构表达浅显、长尾知识覆盖不足”等问题,同时避免了人工抽取的高成本与低效率。

2.5 数据标注与数据回流闭环:驱动模型持续进化

大模型监督微调(SFT)与RLHF中的奖励模型训练,极度依赖高质量标注数据。绿洲AI数据平台通过“人工+机器”协同标注与“训练-反馈-回流”闭环机制,构建了可持续的高质量数据供给体系。

◆高效标注工具链:整合Self-Instruct、Evol-Instruct等自动指令生成与演化方法,能够自动生成大规模初始指令数据,再通过人工筛选、修正与补充,构建“大规模、高质量”的微调数据集,平衡标注效率与数据质量。

◆推理数据回流机制:在RLHF框架下,将用户对模型输出的显性反馈(如点赞、点踩、编辑)与隐性反馈(如停留时间、后续交互行为)作为新的标注数据,回流至训练数据集,持续更新奖励模型。

◆全流程闭环优化:形成“高质量标注数据→模型训练调优→部署推理→用户反馈→数据回流→模型迭代”的完整闭环,确保模型能够持续适配动态变化的业务需求与人类偏好,实现能力的持续进化。

3 结束语

AI时代的核心竞争力,本质上是数据供给能力的竞争。大模型的性能上限不再由参数规模或算力强弱单独决定,而是取决于“数据–模型–算力”的协同优化水平,其中数据的质量、多样性与治理水平更是起到了基础性、决定性作用。传统数据工程体系已难以适配AI原生应用的需求,构建以非结构化数据为核心、全链路可控、高效率供给的AI数据工程范式,成为企业数字化转型的关键课题。

新华三绿洲AI数据工程平台通过“AI数据湖+全流程数据处理+闭环数据供给”的创新架构,系统性解决了非结构化数据“发现难、治理难、处理难、获取难”的核心痛点,为大模型训练微调与强化学习提供了稳定、高效、高质量的数据支撑。其核心价值不仅在于实现了数据资产的规范化管理,更在于构建了“数据-模型-应用”的正向循环,数据质量的提升直接推动模型性能优化,模型的广泛应用又能产生更多高质量反馈数据,进而反哺数据体系的持续完善。未来,随着大模型技术的进一步普及与深化,AI数据工程将朝着“更智能的自动化处理、更精细的治理体系、更灵活的场景适配”方向演进。新华三绿洲AI数据平台将持续聚焦AI数据供给的核心需求,不断强化多模态数据处理、知识图谱构建、数据合成与回流等关键能力,助力企业充分释放非结构化数据的潜在价值,加速AI原生应用的落地与创新,在AI时代的竞争中抢占先机。我们相信,以数据为核心驱动力的AI变革,将为企业创造前所未有的增长空间,而完善的数据工程体系,正是解锁这一潜力的关键钥匙。

关闭