|
执行DataX任务的执行主机节点必须安装DataX客户端和JDK。 |
该功能用于新增或编辑DataX任务。新增和编辑DataX任务时,参数类别不完全相同,请以实际页面为准。
在数据集成模块下选择[作业管理/作业定义],进入作业定义页面。
在页面顶部导航栏选择工作空间,页面显示对应工作空间下的作业目录。
双击页面左侧目录树中的作业名称,会进入作业设计画布。
右键单击作业设计器画布,选择DataX类型任务进行添加,会弹出任务信息配置窗口,用户需根据实际需要配置任务名称及描述信息,然后单击<确定>按钮会在画布中添加一个DataX任务节点。双击任务节点,即可进入对应任务设计页面。
任务设计页面部分参数页面说明:
SSH连接:单击<浏览>按钮,弹出数据源连接窗口,选在需要进行操作的SSH连接。
自定义配置:自定义配置关闭时,页面输入项主要划分数据来源、数据去向、字段映射、高级配置四部分内容。自定义配置开启时,页面输入项为最小内存、最大内存及DataX配置。
最小/最大内存:配置任务最小/最大内存,最小内存默认1G,最大内存默认4G,最小可选1G,最大可选32G,允许填写小数。
DataX配置:根据需要在DataX配置内容框中填写DataX执行的JSON内容。
数据源(数据来源):选择进行数据交换的数据来源。暂只支持JDBC类型数据源。
数据源:必填,选择进行数据交换的数据来源。
表:必填,选择数据库下的表。
使用自定义SQL:勾选后用户可自行编写SQL语句,以SQL语句的查询结果作为数据来源。
过滤条件:非必填,填写表字段过滤条件,如:column1>1 and column2 like '%xxx%'。
切分字段:非必填,字段类型必须是数字整型或者字符串类型,否则DataX会抛出异常,数据量大时(百万以上),配置该值可对表分块进而提高获取数据的速度。不填时DataX会视作使用单通道进行同步。
批量获取条数:默认1024,最大限制到2048。该值决定了DataX和数据库服务网络交互次数,该值不可过大,过大会增加内存消耗。
数据预览:对将要同步的数据进行预览。
数据源(数据去向):选择进行数据交换的数据去向。暂只支持JDBC类型数据源。
数据源:必填,选择进行数据交换的数据去向。
表:必填,选择数据库下的表。
前置SQL:非必填,执行数据同步之前执行,多条SQL用英文分号分隔。
后置SQL:非必填,执行数据同步之后执行,多条SQL用英文分号分隔。
批量写入条数:必填,单次写入的数量,页面默认1024,最大限制4096。适当增大该值可提高性能,但同时也会增加内存消耗,当内存不足时频繁gc,性能反而下降。
写入模式:当数据去向选择数据源类型为MySQL时需配置该参数。写入模式可选insert、update、replace。insert表示插入数据;update表示更新数据;replace表示根据主键决定更新还是插入,主键存在则更新,不存在则插入。
字段映射:
添加一行:单击<添加一行>时可以增加一行,增加的一行由用户手动填写选择内容。
删除:单击<删除>时可删除当前行信息,当有不需要同步的字段时可进行该操作。
同名映射:根据同名的规则,对字段进行自动连线。
同行映射:根据同行的规则,对字段进行自动连线。
取消映射:取消所有字段的映射连线。
高级配置:默认不需要配置,给出的默认值可正常执行大多数任务。
限流字节:非必填,限制为正整数,单位Mb/s,默认0不限制,这里为任务总限流。若限流字节和限流记录都配置,有一种达到限流条件时即会触发限流。
限流记录:非必填,限制为正整数,单位条/s,默认0不限制。这里为任务总限流。若限流字节和限流记录都配置,有一种达到限流条件时即会触发限流。
Channel数:必填。数据通道数量,默认1,限制整数,1~32。适当增大该值可提高数据同步的效率,但同时也会增加内存消耗。可调整批量大小、通道数量、内存大小,并结合机器性能对任务进行调优。
最小内存:必填。配置任务最小内存,默认1G,最小1G最大32G,允许填写小数。
最大内存:必填。配置任务最大内存,默认4G,最小1G最大32G,允许填写小数。
预览Json:预览根据页面配置生成的Json字符串。如果页面配置无法满足用户需要,用户可将Json复制出来,复制出来的Json中对应的数据库密码初始值为空,需要用户手动填写对应数据库的密码,然后进行自定义编辑。
配置:用户可对任务进行配置。配置功能位于画布右侧,单击<配置>按钮,弹出配置窗口。关于配置的具体参数说明可参见新建作业下的“配置”。
节点信息配置完成后,单击<保存>按钮,保存任务配置。