在日常的运维工作当中,当客户业务出现故障时,往往需要第一时间定位问题并进行故障修复,这个时候通常来不及分析问题的根因。在一个复杂的业务系统中,故障根因分析往往需要综合各类指标进行联合分析。
在应用可观测体系下,可观测数据包含了日志、链路、指标等三大核心数据,另外还包括一些元数据,如资源状态、依赖关系等,还有异常事件、变更记录等,通过将这些可以表征业务系统中各个可能影响业务最终表现的数据,放在同一时空之下,通过观测分析故障发生时间前后各个指标的数据,可以帮助客户进行问题的根因分析,也有助于研究故障的演进过程。
在页面顶部选择[应用工厂],进入应用工厂模块。
在左侧导航树中,选择[应用运维/时光机]菜单项,进入时光机页面。
在下拉框中选择监控的应用组。
单击时间框选择弹出监控时间色块。通过色块可以快速进行异常时间点选择,其中红色代表该时段应用组不健康,橙色代表亚健康,蓝色代表健康。默认支持最近1天的回溯。
单击<开启故障回溯>按钮,进入故障回溯页面。
可以在左边的时间栏中通过下拉框或时间轴选择监控时间。
可以在页面上方查看链路拓扑中的应用,单击应用可以查看相关健康参数和应用依赖拓扑。
可以在页面下方单击“调用链”页签查看调用链页面。