文件上传系统

文件上传

·          文件上传推荐使用TXTCSV文件格式。

·          当文件内容中包含双引号特殊字符时,对于JSONCSV类型的管道,不支持使用CSV解析方式对文件进行处理,推荐使用TXT解析方式进行处理。

 

  1. [数据采集/文件上传系统]页签中,鼠标浮至文件上传区域,单击出现的<上传>按钮,弹出文件上传窗口。

  1. 在窗口左侧列表中展开数据源,并选择管道名称。

  1. 在右侧配置参数信息:

仅支持Tab、英文逗号(,)或Tab+英文逗号,不支持其他转义字符。Tab+英文逗号仅支持TXT解析方式,文本每一行解析完之后需比定义的字段个数多一个,而且多余字段置于行尾(主要用于数据查询导出的文件进行导入新增的特定功能)。

 

  1. 配置完成后,单击<确定>按钮。

Flume

配置

数据管道支持通过配置Flume导入数据。

在数据采集页面,单击<配置>按钮,即可弹出Flume配置窗口。根据需要配置下载项、任务名称、文件位置、批处理大小,容量、事务容量、数据源名称、选择管道名称参数后,单击<确定>按钮,即可完成Flume方式的采集配置。

下载项分为tar包、文件以及ALL三种:

对于文件和ALL,还需要配置对应参数:

针对带有Kerberos认证的Kafka集群,Flume需要进行额外配置:

安装好Flume之后,找到conf目录,修改flume-env.sh文件。

·          注销掉如下内容:

export JAVA_HOME=/usr/local/

·          新增如下内容:

export JAVA_OPTS="$JAVA_OPTS -Djava.security.krb5.conf={krb5.conf全路径}"

export JAVA_OPTS="$JAVA_OPTS -Djava.security.auth.login.config={kafka  jaas.conf全路径}"

·          修改用户下载的配置文件:

{文件名}.sinks.k1.kafka.producer.security.protocol = SASL_PLAINTEXT

{文件名}.sinks.k1.kafka.producer.sasl.mechanism = GSSAPI

{文件名}.sinks.k1.kafka.producer.sasl.kerberos.service.name = kafka

·          Flume正常启动报错无法找到java路径,则需要在安装路径下conf目录中的flume-env.sh文件内,将如下内容注销掉:

export JAVA_HOME=/usr/local/…

 

功能支持

介绍Flume工具的使用步骤。

NIFI

配置

数据管道支持通过NIFI方式导入数据。在数据采集页面,单击<配置>按钮,会弹出NIFI配置窗口。根据需要配置下载项、任务名称、文件采集模式等相关参数(可以单击参数前面的图标查看该参数配置说明),单击<确定>按钮,即可完成NIFI方式的采集配置。

下载项:分为tar包、文件、ALL三种配置:

对于文件和ALL,还需要配置对应参数:

针对带有Kerberos认证的Kafka集群,NIFI需要添加配置:

·          在安装好NIFI之后,找到conf目录,修改config.yml文件:

sasl.kerberos.service.name: kafka

security.protocol: SASL_PLAINTEXT

·          修改bootstrap.conf文件:

java.arg.8=-Djava.security.auth.login.config={kafka jaas.conf全路径}

java.arg.9=-Djava.security.krb5.conf={krb5.conf全路径}

 

功能支持

介绍NIFI工具的使用步骤。