文件上传系统

文件上传

· 文件上传推荐使用TXT、CSV文件格式。

· 当文件内容中包含双引号特殊字符时，对于JSON和CSV类型的管道，不支持使用CSV解析方式对文件进行处理，推荐使用TXT解析方式进行处理。

在[数据采集/文件上传系统]页签中，鼠标浮至文件上传区域，单击出现的<上传>按钮，弹出文件上传窗口。

在窗口左侧列表中展开数据源，并选择管道名称。

在右侧配置参数信息：

跳过首行：选择是否跳过首行。

解析方式：可以选择CSV、TXT两种方式解析。

分隔符：输入用户指定的分隔符。

仅支持Tab、英文逗号（,）或Tab+英文逗号，不支持其他转义字符。Tab+英文逗号仅支持TXT解析方式，文本每一行解析完之后需比定义的字段个数多一个，而且多余字段置于行尾（主要用于数据查询导出的文件进行导入新增的特定功能）。

选择文件：单击<文件上传>按钮，选择用户需要上传的文件，且推荐文件使用UTF-8的编码格式。

配置完成后，单击<确定>按钮。

Flume

配置

数据管道支持通过配置Flume导入数据。

在数据采集页面，单击<配置>按钮，即可弹出Flume配置窗口。根据需要配置下载项、任务名称、文件位置、批处理大小，容量、事务容量、数据源名称、选择管道名称参数后，单击<确定>按钮，即可完成Flume方式的采集配置。

下载项分为tar包、文件以及ALL三种：

tar包：单击<确定>按钮，即可下载Flume数据采集工具包。

文件：当任务名称、文件位置、容量、数据源等相关参数配置完成后，会根据用户配置的参数生成一个Flume配置文件。单击<确定>按钮，会下载该配置文件，然后将该配置文件放置到部署Flume路径的conf目录中，替换原来的配置文件，然后重启Flume即可将数据采集到数据管道中。

ALL：根据页面提示，配置完任务名称、文件位置等参数后，单击<确定>按钮，会同时下载Flume配置文件和Flume数据采集工具包。Flume配置文件的使用与选择文件时一致。

对于文件和ALL，还需要配置对应参数：

任务名称：Flume中agent的名称，用于唯一标识配置文件中的agent。agent为Flume的采集服务进程。

文件位置：Flume采集数据的源文件地址。

批处理大小：设置一次处理的数据量。

容量：内存中一次可以存放的数据量。

事务容量：单个事务可处理的数据量。

数据源名称：下拉选择Kafka数据源。

管道名称：下拉选择数据管道。

针对带有Kerberos认证的Kafka集群，Flume需要进行额外配置：

安装好Flume之后，找到conf目录，修改flume-env.sh文件。

· 注销掉如下内容：

export JAVA_HOME=/usr/local/…

· 新增如下内容：

export JAVA_OPTS="$JAVA_OPTS -Djava.security.krb5.conf={krb5.conf全路径}"

export JAVA_OPTS="$JAVA_OPTS -Djava.security.auth.login.config={kafka jaas.conf全路径}"

· 修改用户下载的配置文件：

{文件名}.sinks.k1.kafka.producer.security.protocol = SASL_PLAINTEXT

{文件名}.sinks.k1.kafka.producer.sasl.mechanism = GSSAPI

{文件名}.sinks.k1.kafka.producer.sasl.kerberos.service.name = kafka

· Flume正常启动报错无法找到java路径，则需要在安装路径下conf目录中的flume-env.sh文件内，将如下内容注销掉：

export JAVA_HOME=/usr/local/…

功能支持

介绍Flume工具的使用步骤。

NIFI

配置

数据管道支持通过NIFI方式导入数据。在数据采集页面，单击<配置>按钮，会弹出NIFI配置窗口。根据需要配置下载项、任务名称、文件采集模式等相关参数（可以单击参数前面的图标查看该参数配置说明），单击<确定>按钮，即可完成NIFI方式的采集配置。

下载项：分为tar包、文件、ALL三种配置：

tar包：单击[确定]按钮，即可以下载NIFI数据采集工具包。

文件：待任务名称、文件位置、数据源等相关参数配置完成后，会根据用户配置的参数生成一个NIFI配置文件。单击<确定>按钮，可以下载该配置文件，需要将该文件放置到部署NIFI的conf文件路径中，替换原来的配置文件，然后重启NIFI即可将数据采集到数据管道中。

ALL：根据页面提示，配置完任务名称、待采集文件等相关参数后，单击<确定>按钮后同时下载NIFI配置文件和NIFI数据采集工具包。NIFI配置文件的使用与选择文件时一致。

对于文件和ALL，还需要配置对应参数：

任务名称：配置采集任务的名称。

文件采集模式：提供Single File和Multi File两个选项。Single File表示采集单个文件；Multi File表示采集多个文件（即可以指定一个目录，采集该目录下所有文件数据）。

待采集文件：该参数与所选的文件采集模式有关：若选择Single File，该参数需填写待采集文件的绝对路径地址，若选择Multi File，该参数可填写某文件目录，同时支持正则表达式填写，会采集该文件目录下所有符合正则表达式的文件数据。

文件采集初始位置：分为Beginning of File（采集文件所有数据）和Current Time（采集当前系统时间后写入文件的数据）两种。

文件滚动模式：该参数是NIFI为了防止数据丢失，可以从上次回滚完成的文件位置继续读取数据。

数据源名称：选择数据采集后存储的目的Kafka数据源。

管道名称：选择数据采集后存储的数据管道。

压缩方式：选择数据存储在管道中的压缩方式，None表示不压缩数据。压缩算法支持gzip、snappy以及lz4这三种。

针对带有Kerberos认证的Kafka集群，NIFI需要添加配置：

· 在安装好NIFI之后，找到conf目录，修改config.yml文件：

sasl.kerberos.service.name: kafka

security.protocol: SASL_PLAINTEXT

· 修改bootstrap.conf文件：

java.arg.8=-Djava.security.auth.login.config={kafka jaas.conf全路径}

java.arg.9=-Djava.security.krb5.conf={krb5.conf全路径}

功能支持

介绍NIFI工具的使用步骤。