数据开发可以将处理数据的作业按照业务的顺序流程进行组合,形成匹配业务场景的业务流程,从而对数据进行开发处理,满足业务的需求或目的。
开始进行数据开发前,可根据需要创建工作空间,并准备需要数据开发所需要的数据源。
工作空间可以帮助用户更好地将统一管理项目相关资源,隔离不相关资源,实现数据工程化。系统内置了工作空间,如不满足业务需求,可以根据时间业务场景自行创建。
登录绿洲平台,在页面顶部导航栏中选择[工程配置],进入工程配置模块,缺省展示工作空间页面。
在工作空间页面中,单击<新增>按钮,弹出新增工作空间页面,用户可根据实际业务需求或场景进行新增。
图-1 新增工作空间
根据提示配置对应参数项的值,参数说明如下:
工作空间ID:必填,4-128位,仅支持以英文字母开头,可包含英文字母、数字、点号及下划线。
工作空间名:通常使用与业务场景相关的名称,以便于识别。必填,4-128位,可包含汉字、英文字母、数字、点号及下划线。
认证类型:必选,支持私钥认证。
描述:非必填,长度0~128个字符。
单击<确定>按钮完成工作空间的新建。
数据开发功能需要从数据源中获取数据,进行处理后再存入数据源中。因此,需要提前准备好数据源,并增加到数据源管理中(含元数据扫描)。
数据源需要与后续的开发作业和业务流程等在同一工作空间下。如不属于同一工作空间,则需要在数据源管理中,将数据源分配给开发作业和业务流程所在的工作空间。 |
默认情况下,系统中没有数据源,需要手动在系统中添加数据源。
登录绿洲平台,在顶部导航栏中选择[工程配置],进入工程配置模块。
在左侧导航树中选择[数据源管理],进入数据源管理页面。
在页面右上角选择之前创建的工作空间。如使用默认工作空间,则无需切换,直接执行4。
单击<新增>按钮,弹出新增数据源窗口。
图-2 新增数据源
根据实际情况,选择需要的数据源类型进行配置。数据开发支持DLH、DRDS、Greenplum、Hive、MySQL、Oracle、PostgreSQL、SeaSQL MPP、SQL Server、Vertica、Elasticsearch、HBase、Kafka、STDB、达梦类型的数据源。对于前十种类型的数据源,需开启元数据采集。
图-3 选择数据源类型
配置完相关参数后,单击<提交>按钮,完成数据源新增。元数据扫描完成后,数据源中的数据表会在[智能数仓/表管理]中呈现。
准备好数据后,即可根据业务的处理逻辑创建相关的作业和业务流程。
当存在如下情况时,需要提前创建DI作业:
如业务数据的抽取需要由DI作业完成时,则需要在融合集成中创建DI作业,相关操作请参见[融合集成/数据集成]相关的联机帮助。
当存在如下情况时,需要提前创建作业:
当业务数据的抽取需要由数据同步完成时,则需要提前创建数据同步作业。
当业务涉及实时数据的处理时,则需要提前创建实时作业。
当业务涉及使用Java、MR、SparkJar、Shell、PySpark方式处理离线数据时,则可以选择提前创建对应的任务并在业务流程中选用,也可以选择在创建业务流程时直接配置。
系统支持创建实时作业或同步作业,这些作业可以在创建业务流程时被直接引用,以降低业务流程创建的复杂度。
实时作业包含三种类型,根据需要选择其中一种即可。三种类型的实时作业特点如下:
FLINK_GRAPH:以画布方式编辑作业内容,无需熟悉SQL语句或程序开发,可全图形化配置。
FLINK_SQL:通过编写SQL语句定义作业内容,适用于有一定SQL编写基础的用户。SQL语句中可以调用[作业开发/函数管理]中的内置函数或自定义函数,计算处理能力更全面。
FLINK_JAR:通过编写Flink程序,并打包成Jar文件,基于该Jar文件构建实时作业,适用于有编程基础的用户。
本小节以创建FLINK_GRAPH类型的作业为例进行介绍。
在顶部导航栏中选择[数据运营/数据开发],进入数据开发模块。
在左侧导航树中选择[作业开发/作业管理],进入作业管理页面。
在页面的实时页签中,单击目录区域底部的<新建根目录>按钮,新建存放作业的目录。
图-4 新增目录
目录新增完成后,选中目录,然后在右侧区域单击<新增>按钮,弹出新建作业窗口。
图-5 新建作业
配置作业基本参数,参数说明如下:
名称:必填,通常以作业的作用或处理的数据对象为名称,以便于识别。需要以中文或字母开头,支持中文、字母、数字和下划线,有效长度为1~100个字符。
类型:必选,本例中选择FLINK_GRAPH。
描述:可选,通常描述作业的用途或在数据处理流程中的作用,长度范围为0~125个字符。
单击<确定>按钮,进入作业的画布编辑页签。
单击右上角的<锁定>按钮,即可拖动需要的组件至画布中,顺序连线后,依次双击各组件节点,配置参数。不同参数配置的说明请参见[数据运营/数据开发]模块中[作业开发/作业管理]功能下的实时作业组件参数说明。
图-6 作业内容编辑
在业务场景中,业务系统中的数据不可随意操作,通常会采用数据抽取或者数据同步方式,将数据获取至另外的数据库中,以方便进行开发处理。本小节介绍数据同步作业的新建步骤。
在作业管理页面的数据同步页签中,单击目录区域底部的<新建根目录>按钮,新建存放作业的目录。
目录新增完成后,选中目录,然后在右侧区域单击<新增>按钮,弹出新建作业窗口。
图-7 新建数据同步作业
配置作业基本参数,参数说明如下:
作业名称:必填,通常以同步作业需要同步的数据对象和输出位置为名称,以便于识别。需要以中文或字母开头,支持中文、字母、数字和下划线,有效长度为1~100个字符。
输入数据源:必选,指定数据的来源。
输入表:必选,指定数据来源中的数据表。
输出源类型:配置输出数据源的类型。具体的输出数据源,需要在后续的初始化步骤中配置。
单击<确定>按钮,进入该数据同步作业的初始化配置页面。
图-8 初始化数据同步作业
点击“初始化作业”链接,配置同步作业参数,同步任务配置参数说明如下:
作业名称:不可配置,前序步骤中配置的作业名称。
目的数据源:必选,指定同步数据输出的目标数据源。
目的表名:必选,指定同步数据输出的目标数据表。
并行度:必选,最小值为1,最大值受Kafka数据表的分区数量限制。
错误记录保留时长(天):可选,取值范围为1~180。
单击<下一步>按钮,配置字段映射,参数说明如下:
需指定映射类型,并在当前映射列表中配置对应关系。不同的映射类型说明如下:
同行映射:将源表和目标表中的字段在列表中逐行对应,建立映射关系。
同名映射:将源表和目标表中名称相同的字段一一对应,建立映射关系。
自定义映射:自行定义字段间的映射关系。
映射关系配置完成后,将需要同步的行设置为启用。
单击<确定>按钮,操作完成。
业务流程需要根据业务的处理逻辑进行创建,通常为数据获取(数据集成),数据处理(包含数据处理后的存放,涉及离线分析、实时计算、控制节点)。
在数据开发模块中,从左侧导航树中选择[调度中心],进入调度中心页面。
(可选)为方便对业务分类管理,可以创建业务分组。此外还可以根据业务流程的属性或特征,创建业务标签。
创建分组:单击业务分组区域的<管理>按钮,创建分组。分组存在层级关系。
创建标签:单击业务标签区域的<管理>按钮,创建标签。标签间相互独立,不存在层级关系
单击<新建>按钮,在新建业务流程窗口中配置参数。
图-9 新建业务流程
业务流程名称:必填,通常以对应业务,支持中文、字幕、数字、下划线,有效长度为1~100个字符。
描述:选填,长度范围为0~600个字符。
分组:选配,选择业务流程所属的分组。
标签:选配,选择可以标识业务流程属性的标签。
单击<确定>按钮,进入业务流程的画布编辑页签。
从左侧组件区域中拖动需要的组件至画布中,并按业务的处理顺序排列连接。
图-10 配置业务流程
双击画布区域中的组件,编辑组件参数,包括基本信息和通知配置。此外,对于同步DI组件、异步DI组件和离线分析各组件,还可以配置调度参数。不同组件的配置参数介绍请参见[数据开发/调度中心]功能的联机帮助。
业务流程发布后再修改,不会影响已发布的实例。对于已发布的业务流程实例,可以在[运维管理]模块中管理。
系统中提供了运维管理功能,对所有业务流程的实例进行统一管理。
业务流程发布后,需要在[数据开发模块]的[运维管理/调度运维]中,对业务流程实例进行提交运行操作,并监控运行情况。
在顶部导航栏中选择[数据运营/数据开发],进入数据开发模块。
在左侧导航树中选择[运维管理/调度运维],进入调度运维页面。
单击业务流程实例对应操作列的<提交>按钮,即可将业务流程实例提交运行。当有多个业务流程实例需要提交运行时,可以勾选对应的业务流程实例,并单击列表上方的<提交>按钮,将业务流程实例批量提交运行。
单击业务流程实例对应操作列的<监控>按钮,即可进入业务流程的监控页面。
图-11 监控运行情况
如业务流程实例中的作业节点在运行过程中出现问题,可以双击对应节点,查看节点日志信息,帮助定位问题。待解决问题后,可重新运行业务流程实例。
至此数据开发的配置步骤介绍完成。