文件抽取

通过文件抽取组件,可以读取单个或多个文本文件、指定读取的文件列表或者用正则表达式表示的目录列表。该组件可支持抽取服务端本地文件或目录、FTP文件或目录、SFTP文件或目录、HTTP文件。

操作步骤

  1. 双击画布中的文件抽取组件,弹出文件抽取窗口。

  1. 输入步骤名称,名称要求为非空,250个字符。

  1. 分别配置文件、内容、错误处理、字段等页签下的相关参数项。配置完成后,单击<确定>按钮即可完成配置。

  1. 预览:在选中文件,且在“字段”页签成功获取字段或者手动输入字段后,则可以操作<预览>按钮;单击该按钮,可以根据设置的预览行数预览数据;若出现文字乱码,请尝试在“内容”页签下更换编码方式。

  1. 显示文件名:在利用正则表达式获取文件名时,单击<显示文件名>可显示满足正则表达式的文件名,并可以选择读取文件。文件名展示页面支持文件的名称过滤和正则过滤。

注意事项

参数说明

1.      文件页签:确定待抽取的文件

表-1 简单的正则表达式用法

选项

描述

说明

/dirA/

.*userdata.*\.txt

在目录/dirA/中找到所有名字中包含userdata并且以.txt为后缀的文件

/dirB/

AAA.*

在目录/dirB/中找到所有名字以AAA开头的文件

/dirC/

[ENG:A-Z][ENG:0-9].*

在目录/dirC/中找到所有名字以大写字母开头,且同时后面跟着数字的文件,即所有以(A0-Z9)开头的文件

 

2.      内容页签:设置处理文件格式与内容

3.      错误处理页签:对读取数据过程中的错误处理进行参数配置

4.      过滤页签:过滤器选项卡让你能够在文本文件中指定要跳过的行

5.      字段页签:从要抽取的文件中获取字段。用于指定从文本文件中读取的字段名称或格式等信息

6.      其他输出字段页签:一些辅助性的字段定义