离线SQL-智能编辑器作业操作

SQL-智能编辑器类型的作业在创建后,需要通过界面右侧的编辑区域的编辑器中继续编辑作业。SQL-智能编辑器支持用户输入Spark-SQL语句对数据源进行查询,还可以对部分数据源进行数据插入(仅支持部分Insert功能)。

进入离线作业SQL智能编辑器页面有以下两种方式:

界面右侧的编辑区域中,上方为工具栏,左侧分上下区域分别展示了表信息和字段信息,右侧分上下区域分别展示了SQL语句和执行结果。

编辑SQL语句

SQL智能编辑器支持导入已编辑好的SQL语句文件,也可以手动在SQL语句编辑区域中编辑。

当前SQL编辑器中对查询返回的数据条数进行了限制,查询结果默认返回最多1000条结果。

 

  1. 在离线作业的SQL智能编辑器区域中,单击工具栏中的<锁定>按钮,开始编辑该离线作业的SQL语句。

  1. 编辑SQL语句的方法有两种:

点击左上角的图标,将编辑区域的SQL语句格式进行标准化,可以方便查看。

 

保存SQL语句

  1. 编辑完成后,点击左上角的图标,弹出保存作业窗口。

  1. 配置是否导出到其他数据源中存储。选择导出,则需要配置导出参数和自定义运行参数;选择不导出,则需要配置自定义运行参数。

表-1 保存离线作业参数说明

参数

说明

导出参数

  • 导出类型:选择导出的类型,包括HDFSTable。选择不同的导出类型,需要配置的参数不同。如果源表含有STDB数据源表,则导出类型只能选择HDFS类型

  • HDFS目录:如果选择HDFS,才需配置该参数。选择HDFS的目录。点击输入框,弹出HDFS目录窗口,在窗口的列表中选择目标文件夹,并单击<确定>按钮即可。窗口中提供了图标,可在当前目录下新增子目录;提供了图标,可以返回上层目录;提供了图标,可以刷新窗口;列表中还提供了文件夹和文件删除操作链接,以及文件的下载链接

  • 数据分隔符:选择分隔数据的标识符(如果选择HDFS,才需配置该参数)

  • 表类型:选择表所属数据源的类型(如果选择Table,才需配置该参数)

  • 数据源:选择数据源(如果选择Table,才需配置该参数)

  • schema:选择schema(如果选择Table,且“表类型”参数选择PostgreSQLGreenplum、达梦、Vertica时,才需配置该参数)

  • 表名:选择或者输入表名称(如果选择Table,才需配置该参数)

  • 写入模式:选择写入目录的模式。覆盖模式会覆盖掉原有的内容,请谨慎选择。为保证作业可以直接多次运行,新建模式的作业运行时会被适配为追加模式

  • 智能编辑器作业导出到HDFS的写入方式有追加、覆盖。追加指追加查询数据文件到所选的HDFS目录下;覆盖指清空选择的HDFS目录并将查询结果导出到所选的HDFS目录下

  • 智能编辑器作业导出到Table的写入方式有新建、追加、覆盖、更新(仅Vertica表类型支持)。导出的映射关系要求为:SQL计算结果表的列名须与导出表列名一致,数据类型需与导出表数据类型匹配。新建指新建表并将查询数据导出到该表中;追加指追加查询数据文件到所选的表中,如该表不存在,则会首先新建表;覆盖指清空所选的表并将查询结果导出到该表中;更新指根据用户所选更新条件查询导出表中数据,有则更新,无则插入

自定义运行参数

  • executor.instances:配置执行实例数

  • executor.cores:配置执行核心数

  • executor.memory:配置执行内存大小

  • driver.cores:配置驱动核心数

  • driver.memory:配置驱动内存大小

  • yarn.executor.memory.overhead:配置执行内存开销

  • driver.memory.overhead:配置驱动内存开销

  • queue:队列

  • 自定义参数:输入自定义参数,每个参数需以--conf开头,参数间以英文逗号(,)分隔

 

导出数据类型的支持情况,请参见离线作业查看结果

  1. 单击<确定>按钮,保存SQL语句完成。

执行SQL语句

SQL语句编辑完成后,可以执行并查看执行结果,以检验SQL语句是否符合作业要求。

SQL编辑区域中提供了对选中的SQL语句和完整SQL语句进行执行的功能。执行选中的SQL时,仅支持管理员用户进行删除操作。查询结果默认返回最多1000条结果。

进入监控页面

画布中还提供了进入监控页面的入口:

单击工具栏右端的<进入监控页面>按钮,进入作业运维页面,在该页面的列表中,可以进入该作业的监控页面,查看监控信息,详细说明请参见离线作业监控