在顶部导航栏中单击[云服务/应用服务/应用诊断]菜单项,进入应用诊断页面。
查看应用组监控数据,包括总吞吐量、成功率、95%请求响应的平均时间、健康度。
健康度:衡量整个业务系统健康程度的指标,基于总请求数、错误请求率、错误请求数综合计算出的数值,根据健康度数据可以清晰的看出整个业务系统的状态,如健康度不可接受,可进行下一步查看具体监控数据。
单击应用组名称链接,进入应用组监控详情页面。
图-1 应用健康图/吞吐量
即应用组的健康度/吞吐量,折线图默认展示“最近30分钟”的监控数据,步长为2min。“回溯时间”范围支持调整为“最近1小时”、“最近3小时”、“最近6小时”、“最近一天”,其中“最近一天”的步长为1h,其他均为2min。“诊断时间段”与折线图中选中点的监控时间范围相同。当某时间点时刻没有吞吐量时,健康度将继承前一个时间点的数据。
默认展示应用健康度折线图中最近时间点的数据,单击折线图中任意一点,可以切换展示该时间点的数据,查看应用中服务的具体情况。单击缩放按钮,可调整架构图的展示比例。
图-2 应用架构图
应用组接入后到所选时间点为止,如果产生了访问即会存在连线,目的是展示应用组内的调用架构,支持展示多个架构图。服务网关内的数据为应用组接入后到所选时间点为止的全部访问统计的数据。各服务的数据仅展示所选时间点近2min的访问情况,包括吞吐量、成功率、95%响应时间用于具体分析当时时段的情况。
若应用组中存在非Java语言开发的应用,将仅展示服务名称,无数据和链路。 |
95%响应时间:与应用健康度综合分析,如果应用健康度服务要求,则响应时间可以认为在允许范围内;如果健康度不符合要求,而95%响应时间又偏高,则需要考虑提升应用的性能,包括改善运行环境、扩容、添加负载均衡设备等措施。
单击架构图中的服务,可以高亮展示该服务的调度线路,并展示该服务的监控数据,包括响应最慢的5个接口、最慢的5个链路、错误的5个链路、以及该服务的健康度、吞吐量、成功率、响应时间折线图。单击接口/链路链接可调转到接口/链路详情页,单击<更多>按钮,可跳转到接口/链路列表页。
图-3 服务监控数据
运维人员可以了解架构图中所选时间吞吐量最多的TOP5服务以及成功率最高的TOP5服务。
吞吐量高的服务,可根据实际情况将其指定为中台业务,并进行优化。例如:
定时为其扩容,提升某时段高访问量下的负载均衡能力。
将其拆分为多个模块,指定多个运维负责人,保证该业务系统的稳定运行。
成功率低的服务,结合吞吐量考虑是否因为同一时刻并发数过高而导致错误数过高,可以按需扩容。
图-4 服务吞吐量/服务成功率
单击服务名称,可以查看该服务组件、服务各接口以及服务中各实例的监控数据,您可以根据监控情况调整服务的资源。鼠标移入图表中,将展示该点监控的时间范围。
接口列表支持根据平均响应时间(默认从长到短)、吞吐量(默认从大到小)、成功率(默认从低到高)排序,帮助用户更好的了解接口情况。
图-5 组件
图-6 实例
配置了服务网关的服务,支持通过链路树展示调用结构,并查看服务中各实例在所选时间的运行情况和日志。单击架构图中的“服务网关”,可以切换链路树;单击链路树中各服务名称并通过实例下拉框切换服务中实例,可以查看该实例的详细监控和日志。
单击<业务监控>按钮,可以查看该服务的各资源情况,例如吞吐量、成功率、响应时间、CPU使用率、内存使用量、线程等(步长为30s),分析并进行优化,例如,当CPU居高不下时,可适当扩展资源。
单击<日志信息>按钮,可以查看该实例的日志信息。
图-7 链路树-业务监控
图-8 链路树-日志信息