HDFS抽取组件可对HDFS文件系统中结构化的数据进行抽取。
双击画布中的HDFS抽取组件,弹出从HDFS文件抽取窗口。
输入步骤名称,名称要求为非空,2到50个字符。
选择HDFS数据库连接,分别配置文件、内容和字段页签下的相关参数项。
单击<确定>按钮完成配置。
在字段页签的获取字段得到的值是按照行列索引,无法替换顺序。请不要随意删除或者修改获取到的字段顺序。
步骤名称在单个转换中必须唯一。
在使用该组件的时候需要将集群里面的/etc/hosts中的信息,拷贝到安装DigWeb和DigExecutor服务的Docker容器内路径为/etc/hosts的文件中进行配置。
HDFS连接:单击<浏览>按钮选择数据库连接。
Hadoop集群:NameNode节点IP。选择HDFS连接时自动填充,无需填写。
Kerberos认证:目标数据库所在集群是否开启Kerberos及开启Kerberos时的配置信息。当所选择的HDFS连接开启Kerberos时,显示此项,无需手动勾选。
登录用户:填写读取HDFS文件的用户,此用户需拥有读取对应文件的权限。选择HDFS连接时自动填充,无需填写。
选择文件:在Hadoop集群的HDFS中选择文件存储位置,文件路径必须以“/”开头。选择HDFS连接时自动填充,也可自定义。
从以前的步骤接受文件名:从前面的步骤选择一个字段值来替换文件名。如果勾选此选项,则必须存在上一个步骤。
从以前的步骤接受字段名:所选前面步骤的字段也作为本步骤的输出字段。
步骤读取的文件名来自:要获取文件名的上一个步骤名称。
在输入里的字段被当作文件名:选择输入流中作为文件名的字段(文件名应以hdfs://ip:port/folder/filename形式)。
分隔符:指定在文本中分隔字段的字符,例如 ; 或制表符。约定使用“\x01”格式字符串,设置相应的ASCII非打印字符作为字段分隔符。非打印字符,又称控制字符,也即ASCII码表中前面32个字符,该组件中使用“\x01”-“\x1f”来配置使用。
文本限定符:指定在文本中限定字段的字符。
逃逸字符:指定文本中的转义字符。
头部:如果想有一个头部行,使这个选项可用(头部行数量可自定义)。
尾部:如果想有一个尾部行,使这个选项可用(尾部行数量可自定义)。
包装行:单行数据是否被包装到文件的一行或者多行。
包装的行数:定义包装的行数。
分页布局:在处理用于在行式打印机上打印的文本时,请使用这些选项作为最后的手段。
每页记录行数:每一个分页记录的行数。
文档头部行:跳过所设置的头部行数,不向下一步骤传递。
压缩:如果数据文件是在压缩文件中,需要选择对应的压缩文件类型。此时,只读取压缩文件中的第一个文件。非压缩文件时选择None。
没有空行:如果想过滤文件中的空行应使此选项可用。
在输出中包含文件名:使选项可用,在包含文件名的字段名称中输入字段名。
包含文件名的字段名称:自定义字段作为文件名的字段。
输出包含行数:在输出中自定义字段作为行号数字段。
行数字段名称:在输出中作为行号数的自定义字段。
按文件取行号:允许为每一个文件重新设置行号。
格式:设置文件的行分隔符格式。DOS格式可用于抽取Windows系统生成的文件,Unix格式可用于抽取Windows、Unix以及Mac系统下生成的文件,mixed格式可用于抽取Windows、Unix以及Mac OS X版本的系统下生成的文件。
编码方式:指定文件使用的编码。如果空白就使用系统缺省的编码。
记录数量限制:限制从文件中读取的数据行数。0表示不限制。
解析日期时宽容要求:缺省勾选。对于非法的日期数据,勾选时可自动转换为合法数据,否则将提示错误。比如20180230在勾选时可自动解析为20180302,不勾选时将提示日期有误。
本地日期格式:用于解析已经完整写入的日期。
忽略错误:如果在获取数据时发生错误,可以选择忽略错误继续获取后面的数据,反之,将停止获取数据。
跳过错误行:如果在读取一行数据时发生错误,可以选择忽略错误返回一行空数据并继续读取后面的数据。
错误计数字段:将字段添加到输出流行,该字段包含该行上的错误数。
错误字段字段:将字段添加到输出流行,此字段包含发生错误的字段名称。
错误文本字段:将字段添加到输出流行,此字段包含已发生的解析错误的描述。
告警文件目录:生成警告时,将存放到此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是warning)。
错误文件目录:发生错误时,将存放到此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是error)。
失败的记录数文件目录:当某一行发生解析错误时,行号将存放在此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是line)。
操作:用于删除此行数据。
过滤字符串:要搜索的字符串。
过滤器位置:过滤器字符串必须位于该行的位置。零(0)是该行中的第一个位置(一行数据一般都有分隔符,分隔符占一个位置),如果在此处指定低于零(0)的值,则在整个字符串中搜索过滤器字符串。
停止在过滤器:如果要在遇到过滤字符串时停止处理当前文本文件,请在此处指定是。
积极匹配:如果要处理与过滤器匹配的行,请在此处指定是;如果要忽略此类行,则指定否。
获取字段:从文件中获取字段。
操作:用于删除此行数据。
名称:字段名称。
类型:包括字符串、数值、日期、布尔、整型、二进制、时间戳、高精度类、网址。
格式:对指定类型(如日期、时间、精度数值)进行格式化转化。
长度:输出字段内容的长度限制。
Number类型:有效数的数量。
String类型:字符串的长度。
精度:输出字段内容的精度限制。
Number类型:浮点数的数量。
String、Date、Boolean类型:未使用。
货币:用来解释如$10,000.00的数字。
小数:小数点,可以是一个“.”或者“,”。
分组:指定分组符号,分组可以是“.”或“,”。
Null if:当字段内容为指定内容时,输出为空。
默认:当字段内容为空时,输出默认值。
去除空字符串方式:对于内容两端的空格的处理方式。