可靠性监控中心提供可视化、极简的运维方式,用户通过可靠性监控中心,可以快速了解平台的整体运行状况,并能够迅速定位到具体问题。可靠性监控中心通过分层的方式,展示UIS超融合站点中服务层、系统层、硬件层的可靠性现状,并基于一键巡检模式快速诊断站点的健康状态,为高效运维提供指导。
硬件层可靠性:用于对超融合站点的硬件层资源提供可靠性监控,包括监控CPU、内存、物理磁盘、逻辑磁盘、物理网卡、RAID卡、分布式存储资源利用率。
系统层可靠性:用于对超融合站点的系统层资源提供可靠性监控,包括监控集群主机状态、分布式存储数据池状态、分布式存储集群状态、网络配置状态、资源过载状态。
服务层可靠性:用于对超融合站点中的高可靠性管理以及数据与业务提供可靠性监控,包括监控SRM站点容灾、集群高可靠性HA、动态资源调度、应用HA、虚拟机运行状态、虚拟机备份与还原。
选择顶部“监控告警”页签,单击左侧导航树中[可靠性中心/监控中心]菜单项,进入可靠性监控中心页面。
可靠性监控中心页面展示服务层、系统层、硬件层的可靠性状态,其中状态包括已使用服务正常、未使用服务正常、检测到异常服务、检测到告警服务,对应颜色分别为绿色、灰色、黄色、红色。
选择顶部“监控告警”页签,单击左侧导航树中[可靠性中心/监控中心]菜单项,进入可靠性监控中心页面。
单击<一键巡检>按钮,进入一键巡检页面。
选择需要的检测项,单击<开始检测>按钮,开始巡检。巡检完成后,页面默认显示所有检测异常的检测项。单击指定检测项,可查看该检测项具体的检测内容以及改进建议。
选择顶部“监控告警”页签,单击左侧导航树中[可靠性中心/监控中心]菜单项,进入可靠性监控中心页面。
选择对应的监控服务组件图标或单击右侧信息栏中的监控服务名称,右侧信息栏将展示对应的监控详情信息。
单击<查看详情>按钮可跳转到一键巡检页面或对应的服务申请配置页面。
针对需要通过脚本执行的一键巡检服务,包括资源过载状态、网络配置状态、CPU、内存、物理磁盘、逻辑磁盘、物理网卡、RAID卡等监控服务,单击右侧信息栏下方<查看详情>按钮,将跳转到一键巡检页面。