· 文件上传推荐使用TXT、CSV文件格式。 · 当文件内容中包含双引号特殊字符时,对于JSON和CSV类型的管道,不支持使用CSV解析方式对文件进行处理,推荐使用TXT解析方式进行处理。 |
在[数据采集/文件上传系统]页签中,鼠标浮至文件上传区域,单击出现的<上传>按钮,弹出文件上传窗口。
在窗口左侧列表中展开数据源,并选择管道名称。
在右侧配置参数信息:
跳过首行:选择是否跳过首行。
解析方式:可以选择CSV、TXT两种方式解析。
分隔符:输入用户指定的分隔符。
仅支持Tab、英文逗号(,)或Tab+英文逗号,不支持其他转义字符。Tab+英文逗号仅支持TXT解析方式,文本每一行解析完之后需比定义的字段个数多一个,而且多余字段置于行尾(主要用于数据查询导出的文件进行导入新增的特定功能)。 |
选择文件:单击<文件上传>按钮,选择用户需要上传的文件,且推荐文件使用UTF-8的编码格式。
配置完成后,单击<确定>按钮。
数据管道支持通过配置Flume导入数据。
在数据采集页面,单击<配置>按钮,即可弹出Flume配置窗口。根据需要配置下载项、任务名称、文件位置、批处理大小,容量、事务容量、数据源名称、选择管道名称参数后,单击<确定>按钮,即可完成Flume方式的采集配置。
下载项分为tar包、文件以及ALL三种:
tar包:单击<确定>按钮,即可下载Flume数据采集工具包。
文件:当任务名称、文件位置、容量、数据源等相关参数配置完成后,会根据用户配置的参数生成一个Flume配置文件。单击<确定>按钮,会下载该配置文件,然后将该配置文件放置到部署Flume路径的conf目录中,替换原来的配置文件,然后重启Flume即可将数据采集到数据管道中。
ALL:根据页面提示,配置完任务名称、文件位置等参数后,单击<确定>按钮,会同时下载Flume配置文件和Flume数据采集工具包。Flume配置文件的使用与选择文件时一致。
对于文件和ALL,还需要配置对应参数:
任务名称:Flume中agent的名称,用于唯一标识配置文件中的agent。agent为Flume的采集服务进程。
文件位置:Flume采集数据的源文件地址。
批处理大小:设置一次处理的数据量。
容量:内存中一次可以存放的数据量。
事务容量:单个事务可处理的数据量。
数据源名称:下拉选择Kafka数据源。
管道名称:下拉选择数据管道。
针对带有Kerberos认证的Kafka集群,Flume需要进行额外配置: 安装好Flume之后,找到conf目录,修改flume-env.sh文件。 · 注销掉如下内容: export JAVA_HOME=/usr/local/… · 新增如下内容: export JAVA_OPTS="$JAVA_OPTS -Djava.security.krb5.conf={krb5.conf全路径}" export JAVA_OPTS="$JAVA_OPTS -Djava.security.auth.login.config={kafka jaas.conf全路径}" · 修改用户下载的配置文件: {文件名}.sinks.k1.kafka.producer.security.protocol = SASL_PLAINTEXT {文件名}.sinks.k1.kafka.producer.sasl.mechanism = GSSAPI {文件名}.sinks.k1.kafka.producer.sasl.kerberos.service.name = kafka · Flume正常启动报错无法找到java路径,则需要在安装路径下conf目录中的flume-env.sh文件内,将如下内容注销掉: export JAVA_HOME=/usr/local/… |
介绍Flume工具的使用步骤。
数据管道支持通过NIFI方式导入数据。在数据采集页面,单击<配置>按钮,会弹出NIFI配置窗口。根据需要配置下载项、任务名称、文件采集模式等相关参数(可以单击参数前面的图标查看该参数配置说明),单击<确定>按钮,即可完成NIFI方式的采集配置。
下载项:分为tar包、文件、ALL三种配置:
tar包:单击[确定]按钮,即可以下载NIFI数据采集工具包。
文件:待任务名称、文件位置、数据源等相关参数配置完成后,会根据用户配置的参数生成一个NIFI配置文件。单击<确定>按钮,可以下载该配置文件,需要将该文件放置到部署NIFI的conf文件路径中,替换原来的配置文件,然后重启NIFI即可将数据采集到数据管道中。
ALL:根据页面提示,配置完任务名称、待采集文件等相关参数后,单击<确定>按钮后同时下载NIFI配置文件和NIFI数据采集工具包。NIFI配置文件的使用与选择文件时一致。
对于文件和ALL,还需要配置对应参数:
任务名称:配置采集任务的名称。
文件采集模式:提供Single File和Multi File两个选项。Single File表示采集单个文件;Multi File表示采集多个文件(即可以指定一个目录,采集该目录下所有文件数据)。
待采集文件:该参数与所选的文件采集模式有关:若选择Single File,该参数需填写待采集文件的绝对路径地址,若选择Multi File,该参数可填写某文件目录,同时支持正则表达式填写,会采集该文件目录下所有符合正则表达式的文件数据。
文件采集初始位置:分为Beginning of File(采集文件所有数据)和Current Time(采集当前系统时间后写入文件的数据)两种。
文件滚动模式:该参数是NIFI为了防止数据丢失,可以从上次回滚完成的文件位置继续读取数据。
数据源名称:选择数据采集后存储的目的Kafka数据源。
管道名称:选择数据采集后存储的数据管道。
压缩方式:选择数据存储在管道中的压缩方式,None表示不压缩数据。压缩算法支持gzip、snappy以及lz4这三种。
针对带有Kerberos认证的Kafka集群,NIFI需要添加配置: · 在安装好NIFI之后,找到conf目录,修改config.yml文件: sasl.kerberos.service.name: kafka security.protocol: SASL_PLAINTEXT · 修改bootstrap.conf文件: java.arg.8=-Djava.security.auth.login.config={kafka jaas.conf全路径} java.arg.9=-Djava.security.krb5.conf={krb5.conf全路径} |