架构

图-1 产品架构

人工智能平台为云端用户提供AI建模全生命周期服务。平台服务层为AI建模提供基础的服务支撑：

存储服务：采用分布式存储架构，为用户提供多租户资源隔离机制，保证了用户的数据安全。

镜像仓库：多租户镜像仓库服务，为用户提供内置镜像、私有镜像服务。

集群管理：支持节点的动态扩展，支持集群分区管理，灵活配置不同组织机构下用户的资源调度策略。

多级配额：平台针对不同业务采用分层级的资源限额机制，可以有效管理用户资源的合理使用，保证了资源的充分利用，提高了资源使用率。

作业调度：平台利用Kubernetes强大的容器编排能力，以及作业调度能力，为用户的建模过程提供保障。

任务流引擎：平台采用自研的任务流引擎，支持前端拖拽式建模，支持作业类型的可扩展，支持分布式作业运行，支持多种计算框架的作业运行，并向用户提供多种任务流运行模式，加速建模及训练过程。

算法库：平台不断积累AI建模过程中的常用算法，将其标准化，使用户不必编写建模脚本，采用堆积木的形式即可构建自己的整个建模过程，训练出自己的模型。

可视化：平台提供通用的指标记录SDK，用户只需在自己的脚本中进行调用，即可以在训练过程中可视化展示。

平台层为用户提供业务层面的支撑，功能涵盖AI建模全生命周期各个环节：

开发：平台提供JupyterLab在线开发环境，并提供SSH、远程桌面以及VNC访问方式，方便用户在线进行编码及调试。

建模训练：以工程为维度，为用户提供拖拽式样例库管理；支持多种计算框架，支持用户自定义脚本运行，支持多种任务流运行模式，支持分布式训练，支持多机多卡，支持超参搜索，以及可视化的任务资源监控等。

可视化：为用户提供TensorBoard可视化服务，用户可以根据自己的需要创建多个可视化实例。

模型管理：为用户提供统一的模型管理服务，支持模型多版本管理。

模型推理：为用户提供通用的模型部署及上线服务，支持模型多实例部署，支持推理服务的在线测试等。

术语和定义

为方便理解人工智能平台相关的重要概念，基本术语说明如表-1。

表-1 人工智能平台术语

术语	描述
开发环境	特指平台为用户提供的JupyterLab在线编程环境。
分区	指对人工智能平台所管理的集群中所有节点进行区域划分。