大中型企业私域训推解决方案

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

大中型企业私域训推解决方案

提交项目需求

概述

  • 概述
  • 方案价值
  • 关键技术
  • 相关资源

概述

大中型企业私域训推解决方案主要服务于大模型的微调和推理场景,可提供百卡、千卡级别集群,以及在集群之上提供多种算力服务,满足以下典型需求:
1、异构算力管理调度:企业中业务场景多样,需要按照业务需求管理和调度不同品牌、不同款型的GPU算力
2、训推资源高效使用:企业希望提升算力利用率避免算力闲置,算力平台支持推理/训练资源灵活划分,实现训练/推理任务时分复用
3、训推任务快速启动:企业希望基于AI业务平台快速启动训练任务和部署推理服务,降低研发人员的工作难度

方案价值

  • 生态开放

    基于CloudOS云平台提供对20+款主流AI加速卡算力适配,基于客户业务需求提供不同算力资源

  • 弹性按需

    基于云平台提供裸金属、虚拟化、容器集群等多种GPU算力服务,匹配训练/推理/开发测试不同业务场景需求

  • 算力高效

    基于灵犀使能平台提供一站式算法开发、模型训练、推理部署服务,实现训练算力切分、推理服务弹性伸缩等技术,实现资源灵活动态调度,提升算力资源利用率

  • 安全可靠

    支持VPC隔离、私有子网、全链路审计日志与操作记录,满足等保要求和企业内部合规审计

关键技术

1、全栈融合:支持算网存基础设施、GPU算力调度、AI工具链一体化交付,无需用户自行组装
2、高性能数据流:训练数据从对象存储&并行文件存储到GPU显存,全程无瓶颈,存储多协议融合+RoCE网络保障算存节点间高效通信
3、弹性混合调度:训练任务与推理服务按需实现算力资源池灵活调度,训练场景通过优先级调度实现最大化利用率
4、云原生可观测:支持GPU/存储/网络指标监控,智能告警,保障训练/推理业务及时恢复

新华三官网
联系我们