大规模模型训练解决方案

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

大规模模型训练解决方案

提交项目需求

概述

  • 概述
  • 方案价值
  • 关键技术
  • 相关资源

概述

大规模模型训练解决方案主要服务于大模型训练场景,可提供万卡、十万卡级别集群,同时保持算力集群的高线性加速比与高稳定性,满足以下典型需求:
1、规模扩展:大规模训练集群是持续建设过程,可在不同建设阶段实现千卡、万卡、十万卡算力集群的持续扩容
2、高效算力:算力集群架构可保障训练所需算力的算力利用率程线性增加
3、简化运维:大规模算力集群涉及算、网、存多技术领域,包含数万光模块和GPU卡以及网络存储设备,跨领域和大规模给故障定位和运维带来挑战,需要借助平台简化管理和运维,快速确定问题边界恢复训练任务

方案价值

  • 大规模

    采用二层、三层Rail-optimized RoCE无损网络,实现千卡、万卡、十万卡的弹性扩容

  • 高性能

    采用DDC信元转发、RoCE网络负载均衡技术,实现全局无拥塞数据传输

  • 高可靠

    采用计算集群双平面冗余技术、存储集群多链路和数据冗余技术,实现集群系统算、网、存整体高可靠保障

  • 易运维

    基于AD-DC智算版的日志、指标等多样数据采集和分析,实现算、网、存的跨域联动运维,故障快速定位

关键技术

1、弹性扩展:算力多轨1:1无收敛的Rail-optimized组网,支持算力集群从千卡、万卡、十万卡灵活扩展部署
2、算力线性:全局大模型训练流量路径导航、QP HASH等多种负载均衡,支持算力集群扩展算力线性增加
3、长稳运行:RoCE网络双平面故障毫秒级流量切换,训练流量、光链路、GPU运行状态等多维度监控,支持实时分析集群健康状态、网络拥塞度和关键阻塞点,提前处置问题,保障训练任务长稳运行

新华三官网
联系我们