国家 / 地区

H3C公共科学计算AIOS平台

随着AI科学计算的技术突破,人工智能已经广泛应用于各行各业,如医疗、金融、汽车、法律、工业、教育等等,其中AI科学计算服务中心化也成为众望所归的选择,虽然AI 深度学习目前的门槛有所降低,但是对于专业的数据科学家,依然是需要为了环境搭建,并行运算,分布式存储,作业调度等基础设施和服务耗费较多的人力和成本,为此,H3C公共科学计算AIOS平台应运而生,提出软硬件一体化方案,从基础硬件的部署和软件安装,到交互式开发环境的一键启动,从模型的深度训练和调优,到多机多卡GPU作业灵活调度,H3C AIOS平台,提供了十分简洁的使用方式,实现了资源的整合/弹性扩容缩容和合理调度,同时也提供丰富的可自定义的软件和镜像和二次开发的API接口,可方便的集成进入原有SaaS平台。

针对图像处理、语音识别、自然语言处理等深度学习场景下,需要搭建大规模的GPU集群,针对不同的算法模型、不同的深度学习框架,用户如何统一调度与管理GPU集群的计算资源、存储资源,分配给不同的租户使用,是首当其冲需要解决的问题。

对于TensorFlow、Caffe、MxNet等深度学习框架,如何快速部署,提供开发镜像环境,满足不同用户在不同场景下的框架需求、算法需求与开发需求,也是数据科学家难以逾越的一道门槛。

面对不同用户同时进行模型训练、在线推理,采用什么策略对各个任务进行调度,是抢占模式还是先进先出,以及每个训练任务利用哪个GPU加速卡,每个卡的运行状态如何,都需要统一的监控与管理。

针对以上问题,为用户提供一体化的软硬件部署和管理服务,减少开发者系统安装维护工作量;优化分布式训练部署模型,实现多机多卡GPU资源与训练作业灵活调度;提供丰富的可自定义软件和镜像库,充分满足客户对AI计算环境的需求。

• 灵活的资源调度机制:提供强大的资源调度策略,以及资源实时监控,使企业可以有效、合理的使用各种计算资源。

• 完善的API接口服务:系统所有核心业务,都对外提供完善的API接口,用户可以通过这些接口,实现人工智能平台服务与用户已有SaaS平台的深度集成。

• 灵活的权限管理策略:系统通过对人员角色权限的划分,以及资源的使用规划,使得平台中不同的用户的计算资源都能很好的隔离,满足企业对权限管理的各种要求。

• 丰富的性能监控服务:AIOS平台提供完善的性能监控服务,能实时监控系统所有服务的健康状况和硬件/网络利用率情况,并针对各种日常运维工作,提供可视化的操作界面,提高系统运维管理者的工作效率。

以下内容较复杂,建议在PC上浏览。

在PC浏览器上输入c.h3c.com.cn,按页面操作,即可同步到PC上继续浏览。

继续手机浏览

需要技术帮助?

如果您需要更多更准确的技术帮助

去往技术论坛 >

联系我们 联系我们
联系我们
回到顶部 回到顶部