Excel抽取可以将存储在Excel表中的数据抽取到其他类型数据库中。
双击画布中的Excel抽取组件,弹出Excel抽取窗口。
输入步骤名称,名称要求为非空,2到50个字符。
分别配置文件、工作表、内容、字段四个页签下的相关参数项。
单击<确定>按钮完成配置。
预览:在选中Excel文件,且在“字段”页签成功获取字段或者手动输入字段后,则可以操作<预览>按钮;单击该按钮,可以根据设置的预览行数预览数据;如果存在多个工作表,预览数据时列和列值不是完全对应的。
显示文件名:在利用正则表达式获取文件名时,单击<显示文件名>按钮,则显示满足正则表达式的文件名,并可以选择读取文件。文件名展示页面支持文件的名称过滤和正则过滤。
文件页签下选择文件类型时,高版本的Excel表类型可读取低版本的Excel表,反之不可以。
字段页签下Excel抽取组件其中的获取字段得到的值是按照行列索引,无法替换顺序。请不要随意删除或者修改获取到的字段顺序。
Excel 97-2003 XLS (JXL):这是默认的,只能读取97-2003版本的Excel文件。
Excel 2007 XLSX (Apache POI):选择此表格类型,可以阅读所有已知的文件类型。
Excel 2007 XLSX (Apache POI Streaming):表格类型允许读取数据量很大的Excel文件。
Open Office ODS (ODFDOM):可以使用ODFDOM引擎读取OpenOffice电子表格。
本地文件或目录:定义文件名字或整个目录或目录下的文件,可定义服务端本地文件、FTP文件,选择要抽取的文件类型,根据输入框中的示例格式填写文件或目录。如果是服务端本地文件,路径需要设置为/usr/local/dig/data,相应的文件需要拷贝到di-web容器或di-executor 容器中。拷贝操作可参见数据集成服务端本地文件上传及下载。
增加:可以在输入“文件或目录”、“规则表达式”、“正则表达式(排除)”后,单击<增加>按钮,把填写内容添加到选中的文件表格中;也可以直接单击<增加>按钮,在选中的文件表格中增加一行,直接在表格中填写。
浏览:当定义为FTP文件或目录时,该选项可用。单击<浏览>按钮可选择FTP类型的数据源连接。
正则表达式:用正则表达式来适配定义的文件目录中的文件,例如,可以读取有.xlsx或.xls后缀的文件(例如文件/目录写“D:\”、通配符写“a*.xlsx”)。
正则表达式(排除):用正则表达式排除规则表达式中的一部分不需要的文件。
操作:用于删除此行数据。
必须存在:定义当前文件是否必须存在,如果选择“是”,则必须存在该文件;如果选择“否”,表示该文件不是必要的。
包含子目录:如果选中的是一个目录,则该参数生效,定义是否包含子目录下的Excel文件。
从前面步骤获取文件名:从前面的步骤选择一个字段值来替换文件名。如果勾选此选项,则必须存在上一个步骤。
前一步骤名:要获取文件名的上一个步骤名称。
保存文件名的字段:选择输入流中作为文件名的字段。
操作:用于删除此行数据。
工作表:Excel表的工作表(sheet)。
起始行:设置从工作表的哪一行开始读取数据。
起始列:设置从工作表的一行的哪一列开始读取数据。
跳过标题行:如果Excel表的工作表有标题行,可以选择跳过不读取这一行数据。
非空行记录:如果一行全为空,可以选择不获取这一行数据。
停在空记录:如果一行数据全为空,可以选择返回这一行数据后,不继续获取数据。
限制行数:限制读取数据的行数,0表示加载全部数据。
编码:指定文件使用的编码。如果空白就使用操作系统缺省的编码。
添加文件名:将文件名添加到内部文件名结果集。
严格类型:如果选中,数据读取过程中将报告数据类型错误。
忽略错误:如果在获取数据时发生错误,可以选择忽略错误继续获取后面的数据,反之,将停止获取数据。
跳过错误行:如果在读取一行数据时发生错误,可以选择忽略错误返回一行空数据并继续读取后面的数据。
告警文件目录:生成警告时,将存放到此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是warning)。
错误文件目录:发生错误时,将存放到此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是error)。
失败的记录数文件目录:当某一行发生解析错误时,行号将存放在此目录(目录必须存在,否则报错。文件名系统会自行创建,其拓展名默认是line)。
获取字段:从工作表获取字段,若没有选择工作表,默认获取全部工作表的头部字段。
操作:用于删除此行数据。
名称:字段名称。
类型:包括字符串、数值、日期、布尔、整型、二进制、时间戳、高精度类、网址。
格式:对指定类型(如日期、时间、精度数值)进行格式化转化。
长度:输出字段内容的长度。
Number类型:有效数的数量。
String类型:字符串的长度。
精度:输出字段内容的精度。
Number类型:浮点数的数量。
String、Date、Boolean类型:未使用。
货币:用来解释如$10,000.00的数字。
小数:小数点,可以是一个“.”或者“,”。
分组:指定分组符号,分组可以是“.”或“,”。
去除空字符串方式:对于内容两端的空格的处理方式。
重复:是否保留重复的内容,如果选择是,则自动将空白内容填充为上一行的内容,可用于对合并单元格的抽取。
完整文件名称字段:记录完整的文件名加上拓展名。
工作表名称字段:正在使用的工作表名称。
工作表行号字段:当前工作表行号。
行号字段:写入的行数。
短文件名:包含没有路径信息但具有扩展名的文件名的字段名称。
文件扩展名:如果不为空,则在抽取结果中添加一个字段,字段值为文件的扩展名。
文件的路径:如果不为空,则在抽取结果中添加一个字段,字段值为文件的路径。
假设输入文件的全路径为:D:\abc\test.json 或 /opt/test.json
则该文件的路径为:D:\abc 或 /opt
文件大小字段:如果不为空,则在抽取结果中添加一个字段,字段值为文件的大小。
是否为隐藏文件:如果不为空,则在抽取结果中添加一个字段,值为Y或N,分别表示该文件是或不是隐藏文件。
最后修改时间:如果不为空,则在抽取结果中添加一个字段,字段值为该文件的最后修改时间,格式为 yyyy/MM/dd HH:mm:ss.SSS。
URI字段:如果不为空,则在抽取结果中添加一个字段,字段值为该文件的URI。
假设输入文件的全路径为:D:\abc\test.json 或 /opt/test.json
则该文件的URI:file:///D:/abc/test.json 或 file:///opt/test.json
Root URI字段:如果不为空,则在抽取结果中添加一个字段,字段值为该文件的Root URI。
假设输入文件的全路径为:D:\abc\test.json 或 /opt/test.json