人工智能平台为云端用户提供AI建模全生命周期服务。平台服务层为AI建模提供基础的服务支撑:
存储服务:采用分布式存储架构,为用户提供多租户资源隔离机制,保证了用户的数据安全。
镜像仓库:多租户镜像仓库服务,为用户提供内置镜像、私有镜像服务。
集群管理:支持节点的动态扩展,支持集群分区管理,灵活配置不同组织机构下用户的资源调度策略。
多级配额:平台针对不同业务采用分层级的资源限额机制,可以有效管理用户资源的合理使用,保证了资源的充分利用,提高了资源使用率。
作业调度:平台利用Kubernetes强大的容器编排能力,以及作业调度能力,为用户的建模过程提供保障。
任务流引擎:平台采用自研的任务流引擎,支持前端拖拽式建模,支持作业类型的可扩展,支持分布式作业运行,支持多种计算框架的作业运行,并向用户提供多种任务流运行模式,加速建模及训练过程。
算法库:平台不断积累AI建模过程中的常用算法,将其标准化,使用户不必编写建模脚本,采用堆积木的形式即可构建自己的整个建模过程,训练出自己的模型。
可视化:平台提供通用的指标记录SDK,用户只需在自己的脚本中进行调用,即可以在训练过程中可视化展示。
平台层为用户提供业务层面的支撑,功能涵盖AI建模全生命周期各个环节:
开发:平台提供JupyterLab在线开发环境,并提供SSH、远程桌面以及VNC访问方式,方便用户在线进行编码及调试。
建模训练:以工程为维度,为用户提供拖拽式样例库管理;支持多种计算框架,支持用户自定义脚本运行,支持多种任务流运行模式,支持分布式训练,支持多机多卡,支持超参搜索,以及可视化的任务资源监控等。
可视化:为用户提供TensorBoard可视化服务,用户可以根据自己的需要创建多个可视化实例。
模型管理:为用户提供统一的模型管理服务,支持模型多版本管理。
模型推理:为用户提供通用的模型部署及上线服务,支持模型多实例部署,支持推理服务的在线测试等。
为方便理解人工智能平台相关的重要概念,基本术语说明如表-1。
术语 |
描述 |
开发环境 |
特指平台为用户提供的JupyterLab在线编程环境。 |
分区 |
指对人工智能平台所管理的集群中所有节点进行区域划分。 |