数据开发快速入门

数据开发可以将处理数据的作业按照业务的顺序流程进行组合,形成匹配业务场景的业务流程,从而对数据进行开发处理,满足业务的需求或目的。

步骤一:准备工作

开始进行数据开发前,可根据需要创建工作空间,并准备需要数据开发所需要的数据源。

创建工作空间

工作空间可以帮助用户更好地将统一管理项目相关资源,隔离不相关资源,实现数据工程化。系统内置了工作空间,如不满足业务需求,可以根据时间业务场景自行创建。

  1. 登录绿洲平台,在页面顶部导航栏中选择[工程配置],进入工程配置模块,缺省展示工作空间页面。

  1. 在工作空间页面中,单击<新增>按钮,弹出新增工作空间页面,用户可根据实际业务需求或场景进行新增。

图-1 新增工作空间

 

  1. 根据提示配置对应参数项的值,参数说明如下:

  1. 单击<确定>按钮完成工作空间的新建。

 

准备数据源

数据开发功能需要从数据源中获取数据,进行处理后再存入数据源中。因此,需要提前准备好数据源,并增加到数据源管理中(含元数据扫描)。

数据源需要与后续的开发作业和业务流程等在同一工作空间下。如不属于同一工作空间,则需要在数据源管理中,将数据源分配给开发作业和业务流程所在的工作空间。

 

默认情况下,系统中没有数据源,需要手动在系统中添加数据源。

  1. 登录绿洲平台,在顶部导航栏中选择[工程配置],进入工程配置模块。

  1. 在左侧导航树中选择[数据源管理],进入数据源管理页面。

  1. 在页面右上角选择之前创建的工作空间。如使用默认工作空间,则无需切换,直接执行4

  1. 单击<新增>按钮,弹出新增数据源窗口。

图-2 新增数据源

 

  1. 根据实际情况,选择需要的数据源类型进行配置。数据开发支持DLHDRDSGreenplumHiveMySQLOraclePostgreSQLSeaSQL MPPSQL ServerVerticaElasticsearchHBaseKafkaSTDB、达梦类型的数据源。对于前十种类型的数据源,需开启元数据采集。

图-3 选择数据源类型

 

  1. 配置完相关参数后,单击<提交>按钮,完成数据源新增。元数据扫描完成后,数据源中的数据表会在[智能数仓/表管理]中呈现。

步骤二:开发业务流程

准备好数据后,即可根据业务的处理逻辑创建相关的作业和业务流程。

如业务数据的抽取需要由DI作业完成时,则需要在融合集成中创建DI作业,相关操作请参见[融合集成/数据集成]相关的联机帮助。

创建作业

系统支持创建实时作业或同步作业,这些作业可以在创建业务流程时被直接引用,以降低业务流程创建的复杂度。

1.      新建实时作业

实时作业包含三种类型,根据需要选择其中一种即可。三种类型的实时作业特点如下:

本小节以创建FLINK_GRAPH类型的作业为例进行介绍。

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发模块。

  1. 在左侧导航树中选择[作业开发/作业管理],进入作业管理页面。

  1. 在页面的实时页签中,单击目录区域底部的<新建根目录>按钮,新建存放作业的目录。

图-4 新增目录

 

  1. 目录新增完成后,选中目录,然后在右侧区域单击<新增>按钮,弹出新建作业窗口。

图-5 新建作业

 

  1. 配置作业基本参数,参数说明如下:

  1. 单击<确定>按钮,进入作业的画布编辑页签。

  1. 单击右上角的<锁定>按钮,即可拖动需要的组件至画布中,顺序连线后,依次双击各组件节点,配置参数。不同参数配置的说明请参见[数据运营/数据开发]模块中[作业开发/作业管理]功能下的实时作业组件参数说明。

图-6 作业内容编辑

 

  1. 配置完成后,单击工具栏中的按钮,保存配置,业务创建完成。

2.      新建并初始化同步作业

在业务场景中,业务系统中的数据不可随意操作,通常会采用数据抽取或者数据同步方式,将数据获取至另外的数据库中,以方便进行开发处理。本小节介绍数据同步作业的新建步骤。

  1. 在作业管理页面的数据同步页签中,单击目录区域底部的<新建根目录>按钮,新建存放作业的目录。

  1. 目录新增完成后,选中目录,然后在右侧区域单击<新增>按钮,弹出新建作业窗口。

图-7 新建数据同步作业

 

  1. 配置作业基本参数,参数说明如下:

  1. 单击<确定>按钮,进入该数据同步作业的初始化配置页面。

图-8 初始化数据同步作业

 

  1. 点击“初始化作业”链接,配置同步作业参数,同步任务配置参数说明如下:

  1. 单击<下一步>按钮,配置字段映射,参数说明如下:

需指定映射类型,并在当前映射列表中配置对应关系。不同的映射类型说明如下:

映射关系配置完成后,将需要同步的行设置为启用。

  1. 单击<确定>按钮,操作完成。

创建业务流程

业务流程需要根据业务的处理逻辑进行创建,通常为数据获取(数据集成),数据处理(包含数据处理后的存放,涉及离线分析、实时计算、控制节点)。

  1. 在数据开发模块中,从左侧导航树中选择[调度中心],进入调度中心页面。

  1. (可选)为方便对业务分类管理,可以创建业务分组。此外还可以根据业务流程的属性或特征,创建业务标签。

  1. 单击<新建>按钮,在新建业务流程窗口中配置参数。

图-9 新建业务流程

 

  1. 单击<确定>按钮,进入业务流程的画布编辑页签。

  1. 从左侧组件区域中拖动需要的组件至画布中,并按业务的处理顺序排列连接。

图-10 配置业务流程

 

  1. 双击画布区域中的组件,编辑组件参数,包括基本信息和通知配置。此外,对于同步DI组件、异步DI组件和离线分析各组件,还可以配置调度参数。不同组件的配置参数介绍请参见[数据开发/调度中心]功能的联机帮助。

  1. 所有组件节点都配置完成后,单击工具栏中的图标,业务流程创建完成,并发布为业务流程实例。

业务流程发布后再修改,不会影响已发布的实例。对于已发布的业务流程实例,可以在[运维管理]模块中管理。

步骤三:业务流程运行与维护

系统中提供了运维管理功能,对所有业务流程的实例进行统一管理。

业务流程发布后,需要在[数据开发模块][运维管理/调度运维]中,对业务流程实例进行提交运行操作,并监控运行情况。

  1. 在顶部导航栏中选择[数据运营/数据开发],进入数据开发模块。

  1. 在左侧导航树中选择[运维管理/调度运维],进入调度运维页面。

  1. 单击业务流程实例对应操作列的<提交>按钮,即可将业务流程实例提交运行。当有多个业务流程实例需要提交运行时,可以勾选对应的业务流程实例,并单击列表上方的<提交>按钮,将业务流程实例批量提交运行。

  1. 单击业务流程实例对应操作列的<监控>按钮,即可进入业务流程的监控页面。

图-11 监控运行情况

 

如业务流程实例中的作业节点在运行过程中出现问题,可以双击对应节点,查看节点日志信息,帮助定位问题。待解决问题后,可重新运行业务流程实例。

至此数据开发的配置步骤介绍完成。