CSV文件抽取组件提供从定界文件中读取数据的功能。
双击画布中的CSV文件抽取组件,弹出CSV文件抽取窗口。
输入步骤名称,名称要求为非空,2到50个字符。
配置文件名、列分隔符、封闭符等相关参数。
点击<确定>按钮完成配置。
文件名:指定输入CSV文件的名称。文件路径需要设置为/usr/local/dig/data,相应的文件需要拷贝到di-web 容器或di-executor 容器中。拷贝操作可参见数据集成本地文件上传及下载。
文件名字段:如果文件名来自上一步骤,输入要作为CSV文件的字段。(仅当有上一步骤时显示)
在输出中包含文件名:如果文件名来自上一步骤,选择是否要在输出中包含文件名字段。(仅当有上一步骤时显示)
列分隔符:指定文件中使用的文件分隔符。
封闭符:指定文件中使用的封闭符。
NIO缓存大小:指定读取缓存区的大小,即一次读取的字节数。
简易转换:避免不必要的数据类型转换以提高性能。
包含列头行:指定源文件是否含有包含列名的标题行。
将文件添加到结果:将CSV文件名添加到此转换的结果中。
行号字段(可选):在此组件的输出中指定将包含行号的字段的名称。
并发运行:如果要运行此步骤的多个实例(步骤副本),并且希望每个实例读取CSV文件的单独部分,请选择此项。仅在不包含带有换行或回车符的字段的文件上才支持并行读取CSV文件。
字段中有回车换行:指定数据字段是否可以包含换行符。
文件编码:指定文件使用的编码。
字段设置
获取字段:从文件中获取字段。如果选择从前面的步骤获取文件名,则该功能失效,只能手动增加字段。
操作:用于删除此行数据。
名称:字段名称。
类型:包括字符串、数值、日期、布尔、整型、二进制、时间戳、高精度类、网址。
格式:对指定类型(如日期、时间、精度数值)进行格式化转化。
长度:输出字段内容的长度限制。
Number类型:有效数的数量。
String类型:字符串的长度。
精度:输出字段内容的精度限制。
Number类型:浮点数的数量。
String、Date、Boolean类型:未使用。
货币:用来解释如$10,000.00的数字。
小数:小数点,可以是一个“.”或者“,”。
分组:指定分组符号,分组可以是“.”或“,”。
去除空字符串方式:对于内容两端的空格的处理方式。