• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们
docurl=/cn/Products_And_Solution/LinSeer/Ability/202308/1905506_473262_0.htm

高性能算力集群,全面支持大模型训练

【发布时间:2023-08-10】

 

基于新华三多年强大的基础设施技术积累,以算力服务器,高性能的存储,智能无损网络构建起了整个智算解决方案的基础设施,支撑千亿大模型的训练和推理需求。

基础设施层面涵盖算力、存储、网络、安全,通过绿洲平台进行数据要素治理,将数据供给傲飞算力平台,实现数据的进一步标注和管理,同时全面支持大模型的训练和算法的开发,为客户落地AI场景化应用。

优势特性:

异构算力:提供异构的多元AI算力,主要有商业英伟达GPU(主)、国产AI计算加速卡,在大规模分布式训练为主的场景(如NLP),主推R5500G5机型服务器,该机型内部AI计算加速卡为OAM模组形态,训练时服务器内部以高速互联协议传输数据,节点之间可支持8张100G RoCE网卡与其他节点互联,形成AI集群;在小规模训练为主的场景(如小型CV),可以选用R5300G5,此机型主要支持PCIE款型AI加速卡,内部通过PCIESwich互联,成本较低,可适配的AI加速卡款型较多。

海量存储:分为冷热数据,冷数据以存档为主,通过OneStor的对象存储提供,对象存储有读取方便(HTTP协议)、不可在线编辑、集群大的优势,可为用户提供数据集、镜像、算法、模型的廉价归档空间;热数据以分布式并行文件存储为主,通过CX8028/CX5036提供,分布式文件存储具有IOPS高、延迟低的特性,可为大规模训练提供高性能的数据集、训练临时数据的读写空间。

无损网络:支持RoCEv2协议,主要设备为S9820-8C,可提供100G/400G速率的端口。单台设备提供128个100G端口的能力,支持16台R5500G5服务器接入,算力规模可达80P 峰值算力。

主动安全:满足等保2.0的3级要求,通过防火墙、漏洞扫描、态势感知等一系列的主动安全服务保障

方案价值:

开箱即用:提供从基础硬件到算力调度软件的全栈建设能力,以整体方案交付,客户开箱即用,项目用户自己搭建节省2周

提升训练速度:算力服务器MLPerf多项榜单TOP1,国内第一家具备400G高性能网络厂商,大服务提升训练速度,模型训练速度提升10~20%

提升算力利用率:客户以训练任务的形式提交给傲飞智算平台,用户不再独占AI算力,通过傲飞平台共享AI算力,降低算力空闲时间,提升算力利用率至70%以上

数据高效储用:绿洲平台提供AI场景化的工具套件,从业务中获取AI训练所需的数据,AI模型更能满足客户业务场景需求

简化AI开发流程:提供MLOPS全流程的AI工程化能力,简化AI开发流程,降低AI的落地难度,让算法工程师更关注算法本身

新华三官网
联系我们