半结构化文件采集入MPP场景使用文件抽取组件,从半结构化(CSV、XML、JSON等)文件中抽取数据,然后使用表加载组件将数据加载至MPP中,以下是任务的配置流程:
图-1 任务流程
文件抽取支持多种半结构化文件格式,不同的数据格式配置方式有所区别,下面以CSV文件抽取为例进行介绍:
单击半结构化文件采集入MPP场景卡片,弹出“新建作业”窗口,在新建作业窗口中配置作业名称,描述信息、标签等信息后,单击<确定>按钮进入任务配置页面。
图-2 新建作业
进入任务配置页面后,首先配置文件抽取组件参数信息:
选择文件类型。
根据选择的文件类型,选择数据库连接或填写文件路径。
配置要抽取的文件。
数据格式默认为“Delimited”,分隔方式默认为“CSV”,用户可根据实际情况进行修改。
用户需根据实际需要配置压缩、包含头部、跳过空格、编码方式等参数项。
单击<获取字段>,获取文件中的字段。
图-3 文件抽取
配置完成后,单击<确定>按钮,保存组件配置信息。
双击表加载组件,配置表加载组件的基本信息参数:
选择目标表的数据库连接。
选择目标表。
单击<获取字段>,获取输入的字段。
根据业务需求,配置高级配置项。
图-4 表加载
配置完成后,单击<确定>按钮,保存组件配置。