实时计算作业运维提供对实时计算作业的启动、停止、暂停、恢复、监控(包含告警)等功能,帮助用户对实时计算作业的运行等进行管控。
YARN_SESSION部署模式的实时作业无监控。 |
实时作业页面通过列表的形式展示了实时作业的信息,并提供了相关的维护操作链接。列表各列的介绍如下:
序号:列表中实时作业的序号。
作业名称:实时作业的名称。
描述:实时作业的描述信息。
创建者:实时作业的创建者。
状态:实时作业的当前状态。实时作业的状态包括:NEW、READY、WAIT、RUNNING、FAILED、CANCELLING、CANCELLED、FINISHED、RESTARTING、SUBMITTING和SUBMIT_FAILED。
创建时间:实时作业的创建时间。
修改时间:实时作业最后一次修改的时间。
操作:提供了实时作业当前支持的操作链接。
在实时作业列表左上方的搜索区域中,可以根据作业状态和作业名称两种条件搜索实时作业。两个条件无关联关系,可仅使用其中一个条件进行搜索。
在列表左上方的作业状态下拉菜单中选择作业的状态。
在作业名称输入框中输入名称关键字。
对于READY、SUBMIT_FAILED、FINISHED、FAILED状态的实时作业,支持执行启动操作。
在实时作业列表中,单击待启动作业对应操作列中的“启动”链接,弹出确认对话框。
单击<确定>按钮,作业启动完成。
对于RUNNING状态的实时作业,可以执行暂停操作。
在实时作业列表中,单击待暂停作业对应操作列中的“暂停”链接,弹出确认对话框。
单击<确定>按钮,然后即可等待作业暂停操作完成。
对于RUNNING状态的实时作业,可以执行停止操作。
在实时作业列表中,单击待停止作业对应操作列中的“停止”链接,弹出确认对话框。
单击<确定>按钮,然后即可等待作业停止操作完成。
对于已暂停的实时作业,可以执行恢复操作。
在实时作业列表中,单击待恢复作业对应操作列中的“恢复”链接,弹出确认对话框。
单击<确定>按钮,作业即开始进行恢复操作。
· 只有暂停过的作业才可以恢复; · 页面会根据是否暂停过作业对作业进行区分,只有暂停过的作业,<恢复>按钮才可以点击。 |
对于RUNNING状态的实时作业,可以执行监控操作。
在实时作业列表中,单击作业对应操作列中的“监控”链接, 进入实时作业监控页面。
实时作业监控页面展示了运行中的实时作业的监控信息。页面由作业流程图、告警和各监控指标三部分构成,各监控指标包括:作业健康状态、数据源发送和接收数据、网络传输、内存&CPU。
告警列表:包含告警列表和告警规则两部分。
告警规则:点击告警列表右上角的图标,选择“规则”菜单项,进入告警规则管理页面。规则管理里面列举出了不同类型的告警规则,用户可以根据需求对告警规则进行选择和配置。用户可选择是否开启告警规则,以及配置告警规则的告警级别、持续时间及告警阈值。
启用告警规则的顺序请按照如下步骤: 1. 告警规则列表中,选取告警规则后,点击下方的<更新>按钮,首先更新作业的告警规则。 2. 然后点击启用告警规则。 |
流程图:流程图用来记录一个FLINK_SQL作业的执行过程,与画布中DAG图的执行逻辑是一致的。
作业健康状态:查看当前作业的运行时间、TaskManager的个数、checkpoint的完成情况和slot资源。
数据源发送和接收数据:查看当前作业数据源的输入输出条数以及输入输出速率。
网络传输:查看流经每一个算子的输入输出条数和速率。
内存&CPU:查看当前作业的JobManager和TaskManager对应的CPU使用情况、堆内存使用情况和堆内存总量。
对于运行异常(SUBMIT_FAILED提交失败和FAILED运行失败)的实时作业,可以执行异常查看操作。