HDFS抽取

HDFS抽取组件可对HDFS文件系统中结构化的数据进行抽取。

操作步骤

双击画布中的HDFS抽取组件，弹出从HDFS文件抽取窗口。

输入步骤名称，名称要求为非空，2到50个字符。

选择HDFS数据库连接，分别配置文件、内容和字段页签下的相关参数项。

单击<确定>按钮完成配置。

注意事项

在字段页签的获取字段得到的值是按照行列索引，无法替换顺序。请不要随意删除或者修改获取到的字段顺序。

步骤名称在单个转换中必须唯一。

在使用该组件的时候需要将集群里面的/etc/hosts中的信息，拷贝到安装DigWeb和DigExecutor服务的Docker容器内路径为/etc/hosts的文件中进行配置。

参数说明

1. 文件页签：确定从哪个文件抽取数据

HDFS连接：单击<浏览>按钮选择数据库连接。

Hadoop集群：NameNode节点IP。选择HDFS连接时自动填充，无需填写。

Kerberos认证：目标数据库所在集群是否开启Kerberos及开启Kerberos时的配置信息。当所选择的HDFS连接开启Kerberos时，显示此项，无需手动勾选。

登录用户：填写读取HDFS文件的用户，此用户需拥有读取对应文件的权限。选择HDFS连接时自动填充，无需填写。

选择文件：在Hadoop集群的HDFS中选择文件存储位置，文件路径必须以“/”开头。选择HDFS连接时自动填充，也可自定义。

从以前的步骤接受文件名：从前面的步骤选择一个字段值来替换文件名。如果勾选此选项，则必须存在上一个步骤。

从以前的步骤接受字段名：所选前面步骤的字段也作为本步骤的输出字段。

步骤读取的文件名来自：要获取文件名的上一个步骤名称。

在输入里的字段被当作文件名：选择输入流中作为文件名的字段（文件名应以hdfs://ip:port/folder/filename形式）。

2. 内容页签：设置处理文件格式与内容

分隔符：指定在文本中分隔字段的字符，例如 ; 或制表符。约定使用“\x01”格式字符串，设置相应的ASCII非打印字符作为字段分隔符。非打印字符，又称控制字符，也即ASCII码表中前面32个字符，该组件中使用“\x01”-“\x1f”来配置使用。

文本限定符：指定在文本中限定字段的字符。

逃逸字符：指定文本中的转义字符。

头部：如果想有一个头部行，使这个选项可用（头部行数量可自定义）。

尾部：如果想有一个尾部行，使这个选项可用（尾部行数量可自定义）。

包装行：单行数据是否被包装到文件的一行或者多行。

包装的行数：定义包装的行数。

分页布局：在处理用于在行式打印机上打印的文本时，请使用这些选项作为最后的手段。

每页记录行数：每一个分页记录的行数。

文档头部行：跳过所设置的头部行数，不向下一步骤传递。

压缩：如果数据文件是在压缩文件中，需要选择对应的压缩文件类型。此时，只读取压缩文件中的第一个文件。非压缩文件时选择None。

没有空行：如果想过滤文件中的空行应使此选项可用。

在输出中包含文件名：使选项可用，在包含文件名的字段名称中输入字段名。

包含文件名的字段名称：自定义字段作为文件名的字段。

输出包含行数：在输出中自定义字段作为行号数字段。

行数字段名称：在输出中作为行号数的自定义字段。

按文件取行号：允许为每一个文件重新设置行号。

格式：设置文件的行分隔符格式。DOS格式可用于抽取Windows系统生成的文件，Unix格式可用于抽取Windows、Unix以及Mac系统下生成的文件，mixed格式可用于抽取Windows、Unix以及Mac OS X版本的系统下生成的文件。

编码方式：指定文件使用的编码。如果空白就使用系统缺省的编码。

记录数量限制：限制从文件中读取的数据行数。0表示不限制。

解析日期时宽容要求：缺省勾选。对于非法的日期数据，勾选时可自动转换为合法数据，否则将提示错误。比如20180230在勾选时可自动解析为20180302，不勾选时将提示日期有误。

本地日期格式：用于解析已经完整写入的日期。

3. 错误处理页签：对读取数据过程中的错误处理进行参数配置

忽略错误：如果在获取数据时发生错误，可以选择忽略错误继续获取后面的数据，反之，将停止获取数据。

跳过错误行：如果在读取一行数据时发生错误，可以选择忽略错误返回一行空数据并继续读取后面的数据。

错误计数字段：将字段添加到输出流行，该字段包含该行上的错误数。

错误字段字段：将字段添加到输出流行，此字段包含发生错误的字段名称。

错误文本字段：将字段添加到输出流行，此字段包含已发生的解析错误的描述。

告警文件目录：生成警告时，将存放到此目录（目录必须存在，否则报错。文件名系统会自行创建，其拓展名默认是warning）。

错误文件目录：发生错误时，将存放到此目录（目录必须存在，否则报错。文件名系统会自行创建，其拓展名默认是error）。

失败的记录数文件目录：当某一行发生解析错误时，行号将存放在此目录（目录必须存在，否则报错。文件名系统会自行创建，其拓展名默认是line）。

4. 过滤页签：过滤器选项卡使您能够在文本文件中指定要跳过的行

操作：用于删除此行数据。

过滤字符串：要搜索的字符串。

过滤器位置：过滤器字符串必须位于该行的位置。零（0）是该行中的第一个位置（一行数据一般都有分隔符，分隔符占一个位置），如果在此处指定低于零（0）的值，则在整个字符串中搜索过滤器字符串。

停止在过滤器：如果要在遇到过滤字符串时停止处理当前文本文件，请在此处指定是。

积极匹配：如果要处理与过滤器匹配的行，请在此处指定是；如果要忽略此类行，则指定否。

5. 字段页签：用于指定从文本文件中读取的字段名称或格式等信息

获取字段：从文件中获取字段。

操作：用于删除此行数据。

名称：字段名称。

类型：包括字符串、数值、日期、布尔、整型、二进制、时间戳、高精度类、网址。

格式：对指定类型（如日期、时间、精度数值）进行格式化转化。

长度：输出字段内容的长度限制。

Number类型：有效数的数量。

String类型：字符串的长度。

精度：输出字段内容的精度限制。

Number类型：浮点数的数量。

String、Date、Boolean类型：未使用。

货币：用来解释如$10,000.00的数字。

小数：小数点，可以是一个“.”或者“,”。

分组：指定分组符号，分组可以是“.”或“，”。

Null if：当字段内容为指定内容时，输出为空。

默认：当字段内容为空时，输出默认值。

去除空字符串方式：对于内容两端的空格的处理方式。

重复：是否保留重复的内容，如果选择是，则自动将空白内容填充为上一行的内容，可用于对合并单元格的抽取。