《数字化领航》AI技术专刊

前沿技术

AI时代元数据服务器设计与存储解决方案

文 | 新华三集团云与计算存储产品线张鼎鸿

摘要

在AI时代ZB级数据爆发的背景下，存储系统面临本地文件系统适配不足、并行文件系统元数据瓶颈、多协议兼容成本高以及扩容灵活性有限等核心挑战。本文以新华三Polaris X20000存储产品为例，从三个维度阐述其面向AI全流程的元数据服务器设计方案。该方案采用目录分片打散、Inode与dentry分离的元数据打散架构，有效突破单目录并发瓶颈，实现单目录元数据并发QPS 3.5万，显著提升小文件处理效率；通过数据亲和性设计、IO上下文免锁机制及增量迁移式平滑扩容，达成20–30毫秒的低IO延迟与TiB/s级高吞吐，扩容性能损耗低于5%，成本降低超60%；借助多协议一体化融合，实现跨协议访问延迟低于5毫秒，贯通AI数据清洗、训练与推理全流程数据链路。该设计突破了现有存储系统的架构限制，为AI业务规模化部署提供了高效存储支持。

关键词

AI存储；元数据服务器

引言：AI时代存储的挑战与变革机遇

随着生成式AI和大规模深度学习模型的广泛应用，全球数据规模正经历指数级增长，逐步迈入Zettabyte (ZB)时代。在AI业务的全生命周期中——从数据预处理、模型训练到在线推理——存储系统扮演着前所未有的关键角色。数据清洗阶段需要处理来自多元渠道的PB级非结构化数据；模型训练过程中，算法需要高速访问数百万乃至上亿个样本文件；推理服务则对模型参数的加载延迟提出毫秒级要求。这表明，存储已从传统IT架构中的支撑子系统，转变为直接影响AI业务成效的核心基础设施。

当前主流存储方案在应对AI工作负载时面临多重挑战：本地文件系统（如EXT4、XFS）受限于单机架构，难以满足高并发与弹性扩展需求；集中式存储虽然提供稳定性能，但扩展能力存在天花板；即便是为高性能计算设计的并行文件系统（如Lustre、GPFS），在应用于AI场景时也显露出若干架构性局限。

首先，元数据性能瓶颈依然突出。虽然通过分布式元数据服务（如Lustre DNE）实现了多节点扩展，但在处理极端海量小文件场景时，单目录下的元数据操作仍可能成为系统瓶颈，影响整体并发处理能力。

其次，多协议支持与成本效率难以兼顾。AI业务链涉及多种数据接入与访问协议（POSIX、S3、HDFS等），而许多高性能文件系统对非原生协议的支持往往需要通过网关或插件实现，不仅引入额外延迟，还可能因数据格式转换带来显著的性能开销。

再者，系统弹性与扩容敏捷性不足。AI业务的数据增长往往呈现爆发性和不可预测性，而传统存储系统在进行容量与性能扩展时，通常需要较长的规划与实施周期，甚至需要业务中断，难以适应快速迭代的AI开发节奏。

在此背景下，元数据服务器的架构革新成为破局关键。作为文件系统的“智能调度中心”，元数据管理机制的设计直接决定了存储系统在可扩展性、性能表现和多场景适配能力方面的上限。本文将围绕新华三Polaris X20000存储系统的元数据服务器设计，深入探讨如何通过架构创新应对AI时代的存储挑战。

1 元数据服务器架构设计

1.1 元数据分布式管理：突破并发访问瓶颈

1.1.1 文件系统基础与元数据角色

文件系统的核心职能可归纳为数据存储与元数据管理两个方面。数据存储负责保存文件的实际内容，而元数据则记录了文件的描述性信息与组织结构，包括文件名、大小、权限、物理位置等。在访问文件时，系统首先通过路径解析定位到对应的元数据，进而获取数据存储位置，这一过程涉及目录项（dentry）与索引节点（inode）的协同工作。

图1 文件索引查询过程

以读取/home/user/data.txt为例：系统逐级解析路径，通过目录项缓存或磁盘查找获取每一级目录的inode，最终定位到目标文件的inode，进而读取文件数据。这一链式查询过程的效率，尤其在深目录和海量文件场景下，高度依赖于元数据服务的性能与架构设计。

1.1.2 分布式元数据管理的优势

分布式文件系统通过将数据和元数据分散在多个节点上协同管理，突破了单机系统的资源限制。理想的分布式元数据服务应具备以下特征。

◆高并发处理能力：支持多客户端同时访问海量文件，尤其优化小文件密集型操作的吞吐量。

◆线性扩展能力：元数据性能随节点增加近似线性提升，避免出现扩展瓶颈。

◆高可用性与一致性：在节点故障时自动切换，保障业务连续性，同时维护跨节点操作的语义一致性。

1.1.3 Polaris X20000的元数据打散与智能分布方案

为应对AI数据清洗等场景中出现的海量小文件挑战，Polaris X20000设计了动态元数据打散机制。该机制的核心思想是将单一目录下的元数据条目根据其内在特征智能分布到多个元数据服务器节点上，从而实现负载的全局均衡，及并行处理。

（1）分布式打散：基于一致性哈希的智能分区与动态负载均衡

数据清洗阶段需处理PB级海量小文件，单目录文件数常达数百万级。传统并行文件系统（如Lustre）的静态子树分区或GPFS的预设策略，容易因文件创建热点导致单个元数据节点过载。Polaris X20000采用两层映射架构实现动态打散。

◆第一层：逻辑分片。系统将全局目录树通过一致性哈希算法划分为大量固定的逻辑分片（Shard）。每个分片是负载均衡和故障恢复的基本单位。

◆第二层：物理映射。这些逻辑分片被动态、均匀地分配给集群中的物理元数据服务节点。一个节点可承载多个分片，一个分片的所有副本（通常为3副本）构成一个复制组，通过优化的分布式共识协议（如Raft变种）保证强一致性。

图2 文件系统打散图示

此设计的核心优势在于：当客户端在一个目录内密集创建文件时，其元数据会根据文件名哈希值落入多个不同的逻辑分片，进而被分散到多个物理节点上并行处理。这从架构上杜绝了单目录热点。配合高效的分布式事务机制（在跨分片操作如重命名时启用），在满足POSIX语义的前提下，实测单目录元数据并发处理能力可达3.5万QPS以上，彻底解决了此类场景的并发瓶颈。

（2）Inode与Dentry分离：实现无数据搬迁的元数据操作优化

AI全流程中，rename（模型版本管理）、link（数据集多任务共享）等操作频繁。传统架构中，inode与dentry紧密耦合存储，导致此类操作常伴随昂贵的元数据乃至数据搬迁。

Polaris X20000进行了创新性的存储抽象分离：

◆Dentry（目录项）：仅作为“路径名 → Inode ID”的映射关系，存储在所属目录的逻辑分片内。它非常轻量，且随目录分片策略分布。

◆Inode（索引节点）：作为文件或目录的唯一实体，包含所有权、时间戳、数据块指针等核心元数据，被固定存储在由文件唯一ID决定的独立分片中。

这一分离架构带来了颠覆性的效率提升：

◆rename操作：本质上变为在源目录和目标目录的分片内，原子性地删除和插入两条dentry记录，指向同一个不变的inode。无需移动inode本身及其关联的数据块指针，使操作延迟从百毫秒级降至十毫秒级。

图3 rename修改dentry和inode

◆跨目录link操作：仅需在目标目录分片内新增一条dentry记录，同样指向现有inode。这实现了真正的“零数据拷贝”链接，效率极高。

这种设计完美适配了AI工作流中频繁的模型检查点重命名、数据集符号链接等场景，极大降低了元数据操作对计算任务的干扰。

1.2 性能优化：面向AI工作负载的针对性增强，实现性能与弹性的双重超越

1.2.1 数据局部亲和性设计

AI训练任务通常表现出显著的数据访问局部性特征：训练过程中反复读取同一批样本数据，检查点保存时集中写入大量模型参数。针对这一模式，Polaris X20000实施了多层次的数据局部性优化。

◆元数据与数据亲和部署：将文件的元数据与其主要数据副本在物理上邻近持久化，减少跨节点访问带来的网络延迟。

◆智能预读与缓存：分析训练作业的访问模式，主动预取可能需要的样本数据，并结合多层缓存机制（内存、SSD、HDD）提升热数据访问速度。

◆检查点写入优化：针对大模型训练中频繁的检查点保存操作，采用流水线化和聚合写入技术，能利用全集群的所有节点来持久化单一文件的数据，提供平稳的高吞吐流，避免对训练进程造成阻塞。

实测表明，在典型AI训练场景下，单流写入可达10GB/s，检查点保存时间相较GPFS缩短30%以上，整体训练周期得到有效压缩。

1.2.2免锁设计：通过资源分区与异步流水线消除争用

高并发模型训练要求存储系统能同时处理数千甚至数万个并发的元数据与数据请求。传统的全局锁或细粒度锁机制会带来严重的争用开销和尾部延迟。

Polaris X20000的“免锁”设计体现在以下两个核心层面。

◆元数据分区隔离：如前所述，全局元数据空间已被划分为众多独立的逻辑分片。每个分片由一个专属的、单线程的请求处理队列负责。这意味着对同一个分片的所有操作是序列化的，自然避免了锁的需求；而不同分片之间的操作则完全并行，无需相互等待。这是最根本的“免锁”基石。

◆异步化与无锁数据结构：在每个处理线程内部，采用完全异步、事件驱动的处理模型。将单个请求的处理流程（如：解析、鉴权、索引查询、持久化）分解为多个阶段，形成流水线。阶段间通过无锁队列传递上下文。对于内存中的元数据索引（如哈希表、树），采用RCU（读-拷贝-更新）或跳表等无锁数据结构，实现读操作完全不加锁，写操作最小化阻塞。

这种架构带来的直接好处是极致的可扩展性和稳定的低延迟。元数据服务的性能随节点数增加几乎线性增长，且即使在超高并发压力下，其99.9%尾延迟也能得到严格控制。这使得后端存储不再是大规模AI训练集群的瓶颈，GPU算力得以持续饱和运行。

图4 IO调度模型

1.2.3 弹性扩展与在线迁移

AI业务数据量呈爆发式增长，训练集群规模常从数十节点扩展至数百节点。Lustre扩容需重新平衡数据分布，耗时超4小时，期间性能下降明显；GPFS节点数超过100后，也有明显下降，且需停机调整存储池配置。Polaris X20000支持在线平滑扩容。为适应AI业务快速变化的数据规模，Polaris X20000设计了平滑的在线扩展机制。系统采用基于一致性哈希的分片分布算法，当新增元数据节点时，仅需迁移少量分片即可实现负载均衡，迁移过程对前台业务透明，性能影响控制在5%以内。

扩展过程中，系统智能识别“冷热”数据差异，优先迁移负载较低的分片，避免因数据搬迁加剧热点节点压力。同时，系统支持弹性伸缩策略，可根据实时负载指标自动触发扩缩容操作，实现资源的动态优化配置。

1.3 多协议融合：统一数据平面支持全AI流程

AI业务的不同阶段常需使用不同的数据访问接口：数据收集与预处理可能涉及S3、FTP、NFS、SMB等协议；训练过程通常依赖POSIX文件接口；而模型部署与服务则可能采用S3或专用API。传统方案往往需要多套存储系统并存，导致数据孤岛和管理复杂化。

图5 Polaris X20000存储对接AI全流程

Lustre、GPFS等主流并行文件系统需部署多套架构或依赖第三方插件，导致数据孤岛与性能损耗。Polaris X20000通过统一的元数据架构，原生支持POSIX、S3、NFS、SMB、HDFS等多种协议，所有协议共享同一份数据副本和元数据视图。这一设计带来以下优势。

1)数据零拷贝流通：在不同业务阶段之间流转数据时，无需进行格式转换或物理迁移，极大缩短了数据准备时间。

2)一致的管理体验：无论通过哪种协议访问，文件权限、配额、快照等管理策略保持一致，简化了运维复杂度。

3)性能无损访问：相比通过网关转发的方案，原生多协议支持避免了额外的网络跳转和协议转换开销，实测跨协议访问延迟可降低一个数量级。

2 总结与展望

AI时代的存储系统面临前所未有的性能、扩展性和多场景适配挑战。Polaris X20000非结构化存储系统通过创新的元数据服务器设计，从三个维度应对这些挑战。

首先，通过动态元数据打散与智能分布机制，突破了传统文件系统在海量小文件场景下的并发瓶颈，使系统能够支持高密度、高并发的元数据操作，满足数据预处理阶段的极端需求。

其次，针对AI训练与推理的特有负载模式，实施多层次性能优化，包括数据局部性增强、无锁并发设计和异步处理流水线，在降低访问延迟的同时提升系统吞吐能力，确保计算资源得到充分利用。

最后，通过统一架构下的原生多协议支持，打通了AI业务流程中的数据壁垒，实现跨阶段数据无缝流转，显著降低了系统复杂度和运维成本。

这些设计共同构成了面向AI时代的存储解决方案，不仅解决了当前面临的迫切问题，也为未来更复杂、更大规模的AI应用奠定了可扩展、高性能的数据基础架构。随着AI技术的持续演进，存储系统的创新将继续在释放算法潜力、加速模型迭代方面发挥关键作用。

此外新华三Polaris X20000不仅局限于存储系统本身的架构突破，更致力于与上层AI业务平台深度整合，提供端到端的完整智算解决方案。通过标准化的API接口与开放的生态系统，Polaris X20000能够无缝对接主流AI计算框架（如TensorFlow、PyTorch）、资源调度平台（如Kubernetes）及数据管理工具链，实现存储、计算与数据服务的协同编排。在整合方案中，存储系统将作为智能的数据底座，向上层平台实时提供数据状态、性能洞察与策略建议，助力实现数据感知的资源调度、基于负载特征的路径优化以及全生命周期的数据治理。这种软硬一体的深度融合，使得存储从被动的基础设施转变为主动的智算参与者，不仅为大规模AI训练与推理提供了极致性能与弹性，更通过统一的数据视图与自动化运维，显著降低了整体TCO并加速了业务迭代。未来，我们将持续推动元数据服务的智能化演进，探索AI for Storage的实践，为下一代智算中心构建坚实、高效且自治的数据基石。