· 对数据库的支持。支持DB2、达梦、GreenPlum、HBase、HBase Phoenix、MySQL、PostgreSQL、MPP、Oracle、SQL Server、TeraData、Generic JDBC、HANA等数据源。 · Sqoop任务共支持5种任务类型,分别为:数据库到HDFS、数据库到HBase、数据库到Hive、HDFS到数据库、Hive到数据库。每种任务类型都可以进行整表导出,同时支持通过参数配置选择部分字段导出。 · 操作数据库时需要将被操作的数据库驱动手动放入Sqoop安装路径下。若使用DataEngine平台,则放置驱动的目录为/usr/hdp/3.0.1.0-187/sqoop/lib/。 · 从大数据集群(HDFS/Hive/HBase等)导出数据到Oracle数据库时,不支持表名小写的情况。 · Sqoop命令是自动生成的建议命令,如果运行失败,请结合日志信息调试后重新尝试。 |
该功能用于新增Sqoop任务。
在数据集成模块下选择[任务管理/任务列表],进入任务列表页面。
单击任务列表左上角的<新增>按钮,弹出新增任务窗口。
新增任务窗口,选择任务类型为“Sqoop任务”,单击<跳转任务设计页面>可跳转至任务设计页面,用户可根据实际需要进行任务设计。
执行主机:集群中安装了Sqoop服务客户端的节点IP。
端口号:缺省端口为22,此处端口指利用SSH通道连接执行主机的端口号。
登录用户:缺省为root,不可更改。
登录密码:该节点的root用户密码。
执行用户:Sqoop命令执行用户。
功能:根据需要在其下拉框中选择输入/输出途径,比如选择数据库到HDFS时,文件最终将会被导入Sqoop组件所在集群的HDFS中。
数据库:选择Sqoop任务要操作的数据源。
表:选择Sqoop任务要操作的数据源中的表。
任务文件:当选择功能为“HDFS->数据库”和“HIVE->数据库”时,需配置该项。该配置项对应的是HDFS或HIVE数据文件路径。
参数:通过参数设置可以在Sqoop语句中增加参数。使用参数时,将鼠标放置在对应参数位置,可悬浮显示每个参数对应的注释说明,参数可执行删除或新增操作。