• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SeerAnalyzer-WAN 用户手册-5W100

手册下载

H3C SeerAnalyzer-WAN 用户手册-5W100-整本手册.pdf  (23.99 MB)

  • 发布时间:2024/9/9 20:02:07
  • 浏览量:
  • 下载量:

H3C SeerAnalyzer-WAN

用户手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W100-20231228

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 概述··· 1-1

2 产品介绍··· 2-1

2.1 产品概述·· 2-1

2.2 产品架构·· 2-2

2.3 产品特点·· 2-3

2.3.1 全量数据采集·· 2-3

2.3.2 大数据赋能·· 2-3

2.3.3 AI智能分析·· 2-4

2.3.4 网络和业务数据协作分析·· 2-4

2.4 典型应用场景·· 2-4

2.4.1 流量分析·· 2-4

2.4.2 策略推荐·· 2-5

2.4.3 随流分析·· 2-6

2.4.4 异常分析·· 2-7

2.4.5 RIR调度日志分析·· 2-8

2.4.6 仿真分析·· 2-9

3 概念百科··· 3-1

3.1 健康分析·· 3-1

3.1.1 健康概览·· 3-1

3.1.2 网络分析·· 3-1

3.1.3 流分析·· 3-5

3.1.4 应用分析·· 3-11

3.1.5 链路分析·· 3-14

3.1.6 服务质量分析·· 3-15

3.2 诊断分析·· 3-18

3.2.1 异常分析·· 3-18

3.2.2 事件分析·· 3-18

3.3 预测分析·· 3-19

3.3.1 智能预测·· 3-19

3.4 报表·· 3-20

3.5 能效分析·· 3-21

3.6 仿真分析·· 3-22

3.6.1 设备仿真分析·· 3-22

3.6.2 模拟仿真分析·· 3-23

3.7 区域地图流量质量分析·· 3-24

3.8 术语对照表·· 3-24

4 安装智能分析业务组件··· 4-1

5 基础网络配置··· 5-1

6 配置任务··· 6-1

6.1 设备配置·· 6-1

6.1.1 前提配置·· 6-1

6.1.2 SNMP配置·· 6-1

6.1.3 NETCONF配置·· 6-1

6.1.4 gRPC配置·· 6-2

6.1.5 LLDP使能配置·· 6-2

6.2 配置采集任务·· 6-3

6.2.1 SNMP采集·· 6-3

6.2.2 NETCONF采集·· 6-4

6.2.3 gRPC采集·· 6-6

7 业务功能介绍及配置··· 7-1

7.1 添加网络资产及生成拓扑·· 7-1

7.1.1 解析任务配置·· 7-1

7.1.2 拓扑生成·· 7-2

7.2 网络健康度·· 7-2

7.2.1 解析任务配置·· 7-2

7.2.2 结果展示·· 7-4

7.3 变更分析·· 7-9

7.3.1 解析任务配置·· 7-9

7.3.2 结果展示·· 7-10

7.4 NetStream流分析·· 7-11

7.4.1 解析任务配置·· 7-11

7.4.2 NetStream全局配置·· 7-12

7.4.3 结果展示·· 7-17

7.5 网络路径检测·· 7-23

7.5.1 解析任务配置·· 7-23

7.5.2 结果展示·· 7-27

7.6 链路流量·· 7-30

7.6.1 解析任务配置·· 7-31

7.6.2 设置告警阈值和开启AI预测·· 7-31

7.6.3 结果展示·· 7-32

7.7 路由监控·· 7-34

7.7.1 解析任务配置·· 7-34

7.7.2 结果展示·· 7-34

7.8 异常分析·· 7-35

7.8.1 解析任务配置·· 7-35

7.8.2 结果展示·· 7-36

7.9 事件分析·· 7-36

7.9.1 解析任务配置·· 7-36

7.9.2 结果展示·· 7-37

7.10 智能预测·· 7-37

7.10.1 解析任务配置·· 7-37

7.10.2 启动AI预测任务·· 7-38

7.10.3 结果展示·· 7-38

7.11 报表·· 7-39

7.11.1 报表模板列表·· 7-39

7.11.2 周期报表列表·· 7-42

7.11.3 结果展示·· 7-45

7.12 RIR调度日志分析·· 7-49

7.12.1 解析任务配置·· 7-50

7.12.2 应用组配置·· 7-50

7.12.3 结果展示·· 7-50

7.13 UserLog流分析·· 7-51

7.13.1 解析任务配置·· 7-52

7.13.2 结果展示·· 7-52

7.14 URL审计·· 7-52

7.14.1 解析任务配置·· 7-52

7.14.2 结果展示·· 7-53

7.15 音视频质量分析·· 7-53

7.15.1 解析任务配置·· 7-53

7.15.2 结果展示·· 7-54

7.16 链路可用度·· 7-55

7.16.1 解析任务配置·· 7-55

7.16.2 结果展示·· 7-56

7.17 随流分析·· 7-57

7.17.1 解析任务配置·· 7-57

7.17.2 iFIT探测实例配置·· 7-58

7.17.3 iFIT探测典型配置举例·· 7-64

7.17.4 结果展示·· 7-73

7.18 能效分析·· 7-75

7.18.1 解析任务配置·· 7-75

7.18.2 能效分析参数配置·· 7-76

7.18.3 结果展示·· 7-76

7.19 仿真分析·· 7-77

7.19.1 设备仿真分析·· 7-78

7.19.2 模拟仿真分析·· 7-83

7.20 区域地图流量质量分析·· 7-88

7.20.1 解析任务配置·· 7-88

7.20.2 结果展示·· 7-89

8 分析组件故障处理··· 8-1

8.1 K8S/容器状态异常】POD运行状态CrashLoopBackOff 8-1

8.1.1 故障描述·· 8-1

8.1.2 故障分析与恢复·· 8-2

8.2 【断电重启异常】异常断电导致无法创建存储卷或删除存储卷等操作·· 8-2

8.2.1 故障描述·· 8-2

8.2.2 故障分析与恢复·· 8-3

8.3 【断电重启异常】断电重启后Kafka一直重启不可用问题·· 8-5

8.3.1 故障描述·· 8-5

8.3.2 故障分析与恢复·· 8-5

8.4 【断电重启异常】异常断电后vertica文件损坏,无法启动·· 8-8

8.4.1 故障描述·· 8-8

8.4.2 故障分析与恢复·· 8-10

8.5 【数据库异常】应用分析页面及子页面无数据·· 8-11

8.5.1 故障描述·· 8-11

8.5.2 故障分析与恢复·· 8-12

9 分析组件巡检指导··· 9-1

9.1 巡检业务介绍·· 9-1

9.2 分析组件前端页面巡检指导·· 9-1

9.2.1 健康分析功能·· 9-1

9.2.2 诊断分析功能·· 9-13

9.2.3 预测分析功能·· 9-17

9.2.4 报表功能·· 9-19

9.2.5 分析选项状态检查·· 9-20

9.3 分析组件后台日常巡检指导·· 9-20

9.3.1 分析组件关键任务状态检查·· 9-20

9.4 分析组件巡检报告·· 9-21

9.5 网络设备日常巡检指导·· 9-22

9.5.1 网络设备巡检指导·· 9-22

9.5.2 网络设备巡检报告·· 9-25

9.6 故障隐患处理·· 9-25

 


1 概述

H3C SeerAnalyzer(分析组件,本文简称SeerAnalyzer)聚焦于机器数据的价值挖掘,以大数据技术为基础,通过机器学习、深度学习等手段,从海量数据中分析有价值的信息,为企业网络及业务运维以及商业决策提供参考依据。SeerAnalyzer通过对设备性能、用户接入、业务流量的实时数据采集和状态感知,通过大数据分析技术和人工智能算法,将网络的运行可视化,主动感知网络的潜在风险并自动预警。

WAN分析组件作为广域网智能运维的核心引擎,通过采集状态数据、日志数据、流量数据等多维度网络信息,结合大数据、AI技术对数据进行汇总分析实现智能运维,提供全网健康度测评、应用流分析、容量预测、智能故障诊断等能力。WAN场景主要从对健康分析、诊断分析、预测分析、报表四个方面进行数据的采集和分析展示。

说明

上云环境目前仅支持网络健康度基本功能及NetStream流分析功能。

 


2 产品介绍

2.1  产品概述

随着数字化转型浪潮的推进,越来越多的业务流程被整合为数字化系统,企业网络已经成为企业生存发展的基石,网络环境的稳定性决定了企业日常业务能否稳定开展。随着企业网络规模的快速扩张,网络运维人员面临着网络复杂度激增与系统稳定性要求提升的双重压力。当今企业的核心网络设备上可能承载了成百上千个应用,传统网络运维手段只能通过分析设备运行指标来监控网络运行状态,无法精准监控到每一个应用的网络运行质量。当网络中部分应用或用户出现网络性能出现劣化问题时,传统运维手段很难有效的快速定位问题原因,网络一旦产生故障,需要多部门配合、人工排查,往往处理问题进度慢、界定责任难。业务对网络可靠性及最小化故障恢复时间都提出了更高的要求,传统的运维手段在问题发现、问题定位和问题解决的过程中逐渐变得力不从心。

面对数字化转型进程中网络运维的困难,H3C公司推出分析组件(SeerAnalyzer)这一大数据和AI加持的新一代网络智能分析系统。SeerAnalyzer采用Telemetry等技术实时全量采集网络运行状态数据,实时分析网络关键链路的全流量质量数据,利用大数据技术对这些数据进行高效的预处理和存储,使用高性能计算引擎对海量数据进行实时和离线计算,通过专家知识和场景AI算法对复杂的数据进行智能分析,洞察全网健康状态和问题,结合专家知识和关联算法对问题进行根因定位,并对关键故障进行AI预测。

在追求网络最小化故障恢复时间的同时,为了尽可能减少网络故障对业务的影响,甚至达到业务对网络故障的无感体验,SeerAnalyzer利用Telemetry高速的数据采集和准实时故障识别能力,结合H3C20年的网络运维技术经验积累,实现了故障的快速界定、取证。

图2-1 AD-WAN承载方案-分析组件组网方案示意图

 

图2-2 AD-WAN分支方案-分析组件组网方案示意图

 

2.2  产品架构

分析组件基于统一数字底盘,采用微服务技术架构(Kubernetes+Docker),通过Telemetry Stream技术准实时采集设备数据(周期采集、自动上报),并利用大数据技术提供海量数据存储以及实时流处理分析、利用机器学习算法进行趋势预测和异常检测,为客户提供实时的网络、用户、应用健康度计算及展示,自动分析识别广域网络故障,并结合控制组件形成故障闭环。

图2-3 产品架构

 

2.3  产品特点

2.3.1  全量数据采集

·     SeerAnalyzer通过使用分布式部署架构,实现数据采集能力的灵活扩展,利用Verticaclickhouseflink等组建数据分析平台,以满足不同规模网络的数据采集需求,最高可支持每分钟百万级流的分析能力。

·     支持网络设备运行状态数据GRPC Telemetry秒级采集,实时感知网络真实运行状态。

·     支持应用网络传输质量采集,包括iFIT等全新的应用数据流采集技术,满足应用流量可视及应用质量分析等需求。

·     支持通过NetStream应用流量采集,以多维度的方式展示应用流状态信息。

·     兼容传统网管数据采集协议,全面支持各种数据采集技术,并可根据实际需要按需部署部分或全部采集功能。

2.3.2  大数据赋能

·     SeerAnalyzer使用大数据技术进行海量数据采集及分布式存储计算,达到网络运行状态实时可见,从而实现精细化运维。

·     借助大数据技术,SeerAnalyzer可以实现全网历史时刻运行状态回溯,轻松实现网络问题分析定位、性能分析、行为审计等运维需求。

2.3.3  AI智能分析

·     SeerAnalyzer采用分布式计算引擎以及AI人工智能算法完成数据在线/离线分析任务,以满足各场景智能运维分析需求。

·     通过采集网络设备状态数据、协议报文数据、流量转发数据、用户接入过程数据、日志数据等实现全网状态感知,利用机器学习算法及专家系统实现网络故障的实时感知与智能故障根因定位,并为运维人员提供修复建议。

·     利用海量数据的AI分析,对网络、用户体验、应用等质量进行评估,提供网络的优化能力和重点保障能力。

·     利用高性能采集、实时专家系统及AI算法计算,完成故障的可隔离环境校验、故障检测、影响核查及向分析器的隔离推送。

·     SeerAnalyzer使用智能算法对网络积累的历史数据进行持续的分析,从而预测网络故障、性能瓶颈,为运维人员事前干预和规划提供依据。

2.3.4  网络和业务数据协作分析

·     结合网络设备状态数据分析和业务数据质量数据分析,全面准确反映网络健康状态。

·     通过更全面、更精细、更实时的网络设备度量数据,直接分析网络设备系统平面、控制平面、数据转发平面的运行状态、故障及风险,实现网络的白盒诊断分析。

·     通过软件级的嗅探业务数据TWAMP/NQA探测报文的质量数据,间接分析网络对业务数据流量的支撑质量,从而发现网络存在的问题及风险,实现网络的灰盒洞察分析。

2.4  典型应用场景

2.4.1  流量分析

1. 场景组网

图2-4 全网应用流分析组网方案

 

2. 业务价值

基于用户体验的全新运维视角:提供贯穿网络层与应用层的统一监控视角,全面监控业务的运行质量与可用性情况,真实反映用户实际网络体验,有效提升复杂业务系统的运维能力与效率,满足日常运维与重保工作要求。

·     全网流量可视

SeerAnalyzer通过分析Netstream数据,可以获取一段时间内网络的变化趋势,通过对不同接口、接口组、应用组、应用、IP组、主机、BGPVPNSRv6等多维度分析,从多个层面对原始数据进行上钻、下钻并逐层分解,帮助规划是否需要扩容设备、端口以及提供更高带宽的接口,能够帮助优化网络比如提供升级计划、路由规划等,能够帮助节省网络维护成本,最大地提高网络的性能、容量和可靠性。

·     业务流量监控

提供详实的基于网络、应用和客户的流量信息,每个流量信息中都包含了五元组信息,包括源地址、目的地址、源端口号、目的端口号、协议类型以及输入、输出接口信息可以形象地表示出单个路由器和全网范围内的流量情况,帮助流量故障排除和快速定位问题能力,同时可以获知不同类型应用的带宽占比情况。

·     网络与应用故障识别

动态监控异常的网络流量变化,同时通过分析历史数据,能够对发生的异常流量时间进行回溯。

2.4.2  策略推荐

1. 场景组网

图2-5 策略推荐组网方案

 

2. 业务价值

·     实时性

策略推荐特性能够实时监测设备接口中的QoS队列性能数据,当QoS队列发生丢包时,能够实时反映出来,做到精准发现问题。

·     优化QoS队列配置

基于应用进行流量类聚,通过数据监测并自动给出QoS队列的最优策略配置信息。

·     管理未知流量

基于流量检测,对于影响较大的未知流量,将会通知用户将其纳入应用组管理。

2.4.3  随流分析

1. 场景组网

图2-6 随流分析组网方案

 

2. 业务价值

·     应用直连展示

基于实际业务流,实时展示现网流量的性能数据趋势变化(流量、时延、抖动、丢包率),并同时展示性能数据指标TOP10排名,主动识别质差业务流。

·     超限告警

基于应用流的性能数据,对时延、丢包越限的链路、网元进行染色预警。

·     轨迹回溯

还原业务流量所经的拓扑路径,并展示业务流在实际拓扑转发的逐段链路、逐个设备的实时性能数据。

2.4.4  异常分析

1. 场景组网

图2-7 异常分析数据处理流程

 

2. 业务价值

·     实时性

异常分析能够实时感知设备环境的变化,在特定情况中发出告警,提示用户所发生的故障。

·     快速发现问题

最快1分钟发现问题,3分钟诊断问题,5分钟解决问题。

·     故障闭环

在发生异常故障时,及时通知用户,用户可以立即感知、定位出故障的原因;为用户提供建议方案、恢复方案或隔离方案以及隔离操作后的回退操作。

2.4.5  RIR调度日志分析

1. 场景组网

图2-8 RIR调度日志分析流程

2. 业务价值

分析组件对设备上报的选路信息进行分析,告知用户选路发生切换的原因,方便用户定位出设备哪些链路质量、带宽不满足业务流量需求,并做出相应调整。

2.4.6  仿真分析

1. 场景组网

图2-9 仿真分析组网方案

 

2. 业务价值

·     仿真拓扑展示

仿真分析获取拓扑存量、设备配置信息、隧道算路约束数据,还原并呈现网络拓扑信息,作为仿真分析的基础网络数据输入。

·     流量仿真分析

¡     流量仿真针对可能的网络调整(创建、删除或修改Flow)状态下的业务流量仿真,从流量仿真结果可获悉业务路径、链路利用率、各链路承载的业务Flow等变化情况。

¡     路由仿真是对路由业务进行仿真,通过虚拟设备的路由计算,生成设备的协议路由和转发路由。进行流量仿真之前必须要进行路由仿真。

·     故障仿真分析

在拓扑图上选取需要模拟发生故障的网元或者链路,进行故障前和故障后路由仿真和流量仿真。评估分析故障前后业务流量中断、链路负载阈值超限情况以及隧道路径、时延、跳数的变化。

 


3 概念百科

3.1  健康分析

3.1.1  健康概览

1. 拓扑

物理拓扑可以图形化实时查看当前网络中的设备状态以及链路状态。

图3-1 全网拓扑

 

3.1.2  网络分析

1. 网络健康度

WAN场景网络健康度分为概览、设备、单板、接口、光模块、链路等页签,展示网络设备的整体健康状况趋势、当前网络设备状况和当前系统中的网络设备列表。默认展示最近24小时内的健康状况变化趋势,可通过页面左上方的时间选择器调整时间范围。

图3-2 网络健康度

 

2. 变更分析

变更分析展示网络设备历史快照数据的对比统计信息以及对比详细信息,默认展示最近24小时内的快照数据对比统计信息,可以通过时间选择器来调整时间范围。

图3-3 变更分析

 

3. 网络业务分析

·     网络路径检测

网络路径检测采用NQA TWAMP-light在需要进行检测的指定的源IP和目的IP两端进行路径时延、抖动、丢包探测。分析组件采集并分析网络中所有设备TWAMP模块的测试会话数据和测试结果数据,对其根据不同的时间粒度进行计算,实现对网络中各个转发路径的质量测量和分析,当前支持TWAMP双向、单向时延,TWAMP for trunk双向、单向时延的质量采集分析。

图3-4 网络路径检测-TOPN数据展示

 

图3-5 网络路径检测-业务质量列表

 

图3-6 质量趋势图

 

·     路由监控

路由监控功能可以对设备上已配置的路由协议最近一次更新的路由邻居信息进行展示。

图3-7 路由监控-BGP

 

图3-8 路由监控-OSPF

 

图3-9 路由监控-IS-IS

 

图3-10 路由监控-OSPFv3

 

3.1.3  流分析

1. NetStream流分析

NetStream技术是一种基于流的统计技术,可以对网络中的业务流量进行统计和分析。NetStream流分析展示在指定时间范围内五元组(源IP、目的IP、源端口、目的端口、协议类型)信息经过的设备、接口、链路,携带的VPN等信息。流分析分为应用组、应用、接口、接口组、IP组、主机、会话、BGPVPNSRv6 PolicyTTE等维度,从不同维度分别展示流量流入和流出、流量趋势、流量展示列表、流量详情。

图3-11 NetStream流分析页面展示-接口维度Underlay

 

图3-12 NetStream流分析页面展示-接口维度Overlay

 

图3-13 NetStream流分析页面展示-接口组维度

 

图3-14 NetStream流分析页面展示-应用维度

 

图3-15 NetStream流分析页面展示-应用组维度

 

图3-16 NetStream流分析页面展示-IP组维度

 

图3-17 NetStream流分析页面展示-主机维度

 

图3-18 NetStream流分析页面展示-会话维度

 

图3-19 NetStream流分析页面展示-BGP维度

 

图3-20 NetStream流分析页面展示-VPN维度

 

图3-21 NetStream流分析页面展示-SRv6-Policy维度

 

3.1.4  应用分析

1. RIR调度日志分析

分析组件对采用Flow日志机制上报的调度信息进行分析,找出链路发生调度的原因。可展示指定时间段范围内的事件类型分布图、事件类型调度次数Top10、站点间调度次数Top10和调度列表。事件类型目前支持链路故障、质量变化、带宽变化、配置变化、优化调度等,可通过选择具体的事件类型查看调度详情信息。

图3-22 RIR调度日志分析

 

图3-23 RIR调度日志调度列表

 

2. Userlog流分析

UserLog流分析功能通过采集和分析网络中所有设备的NAT转换会话日志数据,展示网络中应用及其流量信息,实现对NAT转换会话流量监控。

图3-24 会话日志列表

 

3. URL审计

URL审计功能通过采集和分析网络设备的日志信息,实现对用户访问URL的监控,达到规范用户上网行为的目的。这里的网络设备是指已配置URL拦截策略的路由器。仅支持对基于HTTP协议的URL进行监控。

图3-25 URL访问列表

 

4. 音视频质量分析

音视频质量分析功能通过监控客户端、服务器、媒体网关等接入的网络设备上音视频流量质量,针对频发的丢包、抖动变大等设备,结合设备健康度等指标及时发现网络问题,并通过网络扩容或者寻求音视频方案提供商等手段来保障音视频流量质量。

图3-26 音视频质量分析展示

 

3.1.5  链路分析

1. 链路可用度

链路可用度采用NQA探测技术,设备通过发送探测报文对链路状态、网络性能、网络提供的服务及服务质量进行分析从而获取链路的时延、抖动、丢包信息。分析组件采集设备端的NQA探测结果,经过计算在页面展示网络链路在指定时间段的可用度情况。

采集器采集设备端的NQA报文,从中获取时延、抖动、丢包率等指标,根据配置页面不同的计算基准,计算出可用度及相关指标,在列表页和详情页进行展示。

图3-27 设置计算基准

 

图3-28 链路可用度

 

2. 链路流量

链路流量展示网络链路在指定时间段的链路利用情况。通过手动设置利用率告警阈值,超过阈值的链路会产生告警信息;通过设置AI预测时长和AI预测开关,可以根据链路历史数据预测该条链路在未来一段时间的流量利用率与速率。AI预测利用率若高于利用率告警阈值,或低于低利用率告警阈值,系统会给出相应的链路扩缩容建议,并生成链路容量优化预测报表。

3.1.6  服务质量分析

1. 随流分析

随流分析包括iFITin-situ Flow Information Telemetry),iFIT是一种应用于MPLSMultiprotocol Label Switching,多协议标签交换)、SRSegment Routing,分段路由)和IPv6 SRSRv6)网络的、测量网络性能指标的测量技术,它直接测量业务报文的真实丢包率和时延等参数,具有部署方便、统计精度高等优点。

图3-29 监控性能参数超阈值比率TOPN

 

图3-30 监控流包速率TOPN

 

图3-31 监控流报表

 

图3-32 监控流转发路径

 

图3-33 监控流报表详情页面-性能统计

 

图3-34 监控流报表详情页面-趋势图

 

3.2  诊断分析

3.2.1  异常分析

异常分析功能展示在所选时间内,整个组网中发生故障的统计,可通过切换页签查看基于设备、网络、协议分类后的故障信息。

图3-35 异常分析

 

3.2.2  事件分析

事件分析功能可以基于不同的事件类型进行数据展示。网络事件:展示用户所选时间范围内,系统中发生问题基于各问题类型的统计,通过对问题的逐步细化,最终展示都有哪些设备发生此类问题。

图3-36 网络事件

 

3.3  预测分析

3.3.1  智能预测

智能预测采用统计学习和机器学习的方法,对时序数据(KPI)进行规律分析,拟合并预测数据的未来走势,生成基线和预测结果。

基于KPI选择展示设备详情,包括实际值、预测值、上界值、下界值。

图3-37 智能预测列表

 

图3-38 智能预测详情

 

3.4  报表

报表模板列表展示了当前操作员可操作的所有报表模板,用户可自定义查询某业务报表,支持多种文件格式导出,同时也支持报表模板按照一定的频率统计数据自动生成周期性的报表文件。

图3-39 网元报表

 

图3-40 IGP链路流量报表

 

图3-41 Netsream报表

 

3.5  能效分析

能效分析提供多项分析功能,可以帮助用户更好地了解网络设备的能源消耗情况,并提供有效的能源管理和控制手段。通过概览、功耗分布、对比分析等页面可视化展示选定区域和时间段的总功耗量、总碳排放量、总费用等信息以及与上一个时间段相比的节省值,帮助用户快速了解网络设备的能源消耗情况,找到能源消耗的瓶颈。支持根据实际情况进行参数设置,如耗电排放因子、树抵消植和电价等,从而提供更加细致的管理和控制手段,更好地进行能源管理和控制。

图3-42 概览页面数据

 

切换到功耗分布页签,查看整机功耗分布趋势图、功耗实际取值面积图和指标趋势列表,如3-43所示。

图3-43 整机功耗

 

3.6  仿真分析

仿真是基于同步的现网设备配置、网络拓扑以及流量信息,解析还原整网拓扑和协议。通过导入网络仿真流量,指定网络关键网元或者链路故障等实现模拟流量调优,故障点对业务的影响,通过模拟前后拓扑呈现、流量路径仿真的方式为网络分析和维护提供参考。

3.6.1  设备仿真分析

设备仿真分析使用分析组件与虚拟路由器相结合实现仿真。

图3-44 仿真网络构建结果

 

设备仿真新建结果如3-45所示,仿真周期的不同时间点,导入的流量在遇到关键链路故障时的选路情况。

图3-45 设备仿真新建结果

 

3.6.2  模拟仿真分析

模拟仿真分析使用内置的软件算法模拟路由协议进行仿真。

图3-46 模拟仿真新建结果

 

3.7  区域地图流量质量分析

区域地图流量质量分析,可以基于省、市、县/区维度查看到区域的流量排名、发送流量以及质量数据情况。质量数据情况是采用NQA TWAMP-light在需要进行检测的指定的源IP和目的IP两端进行路径时延、抖动、丢包探测。

图3-47 区域地图流量质量分析示意图

 

3.8  术语对照表

表3-1 术语对照表

术语

说明

SNMP

Simple Network Management Protocol,简单网络管理协议,用于网络设备的远程管理和操作

NETCONF

Network Configuration Protocol,网络配置协议,用于对网络设备进行配置和管理,支持编程

NetStream

一种基于流的统计技术

UserLog

用户访问外部网络流信息的日志

URL

Uniform Resource Locator,统一资源定位符

RIR

Resilient Intelligent Routing,智能选路

SYSLOG

SYSLOG协议,记录系统日志信息

Telemetry

Telemetry Stream是一项从设备上采集数据的网络监控技术,用于向采集器上送数据

gRPC

Google Remote Procedure CallGoogle远程过程调用,用于网络设备进行配置和管理,可支持多种编程语言

TWAMP

Two-Way Active Measurement Protocol,双向主动测量协议

QoS

Quality of Service,服务质量,对于网络业务,影响服务质量的因素包括传输的带宽、传送的时延、数据的丢包率等。在网络中可以通过保证传输的带宽、降低传送的时延、降低数据的丢包率以及时延抖动等措施来提高服务质量。网络资源总是有限的,在保证某类业务的服务质量的同时,可能就是在损害其它业务的服务质量。因此,网络管理者需要根据各种业务的特点来对网络资源进行合理的规划和分配,从而使网络资源得到高效利用

iNQA

Intelligent Network Quality Analyzer,智能网络质量分析,是一种适用于大规模IP网络、可快速测量网络性能的检测机制

iNQA Collector

iNQA中负责管理和控制测量点,周期性收集测量点产生的统计数据并上报给Analyzer

iNQA Analyzer

负责收集Collector上送的统计数据并完成数据的汇总和计算

DHCP

Dynamic Host Configuration Protocol,动态主机配置协议。它采用客户端/服务器的通信模式。所有的IP 网络配置参数都由DHCP 服务器集中管理,并负责处理客户端的DHCP 请求;而客户端则会使用服务器分配的IP 网络参数进行通信。

MTU

Maximum Transmission Unit,最大传输单元。是数据链路层(如以太网、无线网络等)中可传输的最大数据包大小,以字节为单位表示。简单来说,MTU规定了一个包传输的最大大小,超过MTU的包需要进行分割和重新拼接。修改接口的MTU值,会影响IP报文的分片与重组

VLAN

VLANVirtual Local Area Network,虚拟局域网)技术把一个物理LAN划分成多个逻辑的LAN——VLAN,处于同一VLAN的主机能直接互通,而处于不同VLAN的主机则不能直接互通,从而增强了局域网的安全性。划分VLAN后,广播报文被限制在同一个VLAN内,即每个VLAN是一个广播域,有效地限制了广播域的范围。通过VLAN可以将不同的主机划分到不同的工作组,同一工作组的主机可以位于不同的物理位置,网络构建和维护更方便灵活。

VRF

Virtual Routing and Forwarding,虚拟路由和转发。是一种在网络设备(如路由器、交换机等)中实现虚拟网络划分的技术。VRF可以将一个物理网络设备划分为多个逻辑的、独立的路由器,每个VRF就好像是独立的一个路由表,每个VRF可以拥有自己的路由规则和转发行为。

BGP

BGPBorder Gateway Protocol,边界网关协议)是一种既可以用于不同ASAutonomous System,自治系统)之间,又可以用于同一AS内部的动态路由协议。当BGP运行于同一AS内部时,被称为IBGPInternal BGP);当BGP运行于不同AS之间时,称为EBGPExternal BGP)。AS是拥有同一选路策略,属于同一技术管理部门的一组路由器

BGP发言者和对等体

运行BGP协议的路由器称为BGP发言者。BGP发言者接收或产生路由信息,并将路由信息发布给其它BGP发言者。

相互之间存在TCP连接、相互交换路由信息的BGP发言者互为BGP对等体。

SRv6 Policy

SRv6 Policy是基于SRv6SR-MPLS TE Policy(段路由流量工程策略),它提供了灵活的转发路径选择方法,可以满足用户不同的转发需求 。本页面用于查询和展示SRv6 Policy相关信息。

 

 


4 安装智能分析业务组件

请参考《AD-WAN承载网6.5 统一数字底盘及组件部署指导》和《AD-WAN分支6.5 统一数字底盘及组件部署指导》。


5 基础网络配置

分析组件中的多个功能模板均需要配置网络设备、网络资产、协议模板、设置协议等操作,具体配置步骤请参考《AD-WAN承载网6.5 智能分析业务配置指导》和《AD-WAN分支6.5 智能分析业务配置指导》基础网络配置章节。


6 配置任务

6.1  设备配置

根据需要配置设备,建议所有设备都配置。

6.1.1  前提配置

注意

·     本章节主要涉及设备零配置部署上线配置,WAN分支方案中,采用零配置部署上线,只需确保设备与服务器路由可达,控制组件正常纳管设备即可。

·     控制组件下发的配置包含EVPN等基础功能配置,是分析组件后续功能测试的前提,请参考控制组件最新配置指导。

 

6.1.2  SNMP配置

分析组件通过SNMP采集设备数据,设备上需要添加SNMP相关配置,保证分析组件能够连接设备,保证分析组件能够连接设备,以设备Hub1配置举例:

[Hub1] snmp-agent

[Hub1] snmp-agent community read public

[Hub1] snmp-agent sys-info version all

[Hub1] snmp-agent target-host trap address udp-domain 3.2.139.233 params securityname public v2c //南向被动采集IP;若配置的是南北合一网络,则配置命令为:snmp-agent target-host trap address udp-domain 3.2.139.233 udp-port 50002 params securityname public v2c

[Hub1] snmp-agent trap source loopback0  //源接口为环回口,即分析组件纳管ip所在的接口

6.1.3  NETCONF配置

分析组件通过NETCONF采集设备数据,设备上需要添加NETCONF相关配置,保证分析组件可以正常连接设备,以设备Hub1配置举例。

1. 创建管理用户,配置服务类型、用户权限

[Hub1] local-user admin class manage

[Hub1-luser-manage-admin] password simple admin

[Hub1-luser-manage-admin] service-type ssh telnet http https

[Hub1-luser-manage-admin] authorization-attribute user-role network-admin

2. 启用NETCONF SSH服务

[Hub1] netconf ssh server enable

3. 配置用户登录方式为scheme

[Hub1] line vty 0 63

[Hub1-line-vty0-63] authentication-mode scheme

[Hub1-line-vty0-63] user-role network-admin

[Hub1-line-vty0-63] user-role network-operator

[Hub1-line-vty0-63] idle-timeout 0 0

6.1.4  gRPC配置

配置采集路径,设备HUB1配置为例:

注意

当分析组件采用IPv6地址纳管设备时,gRPC配置中的source-address必须填写纳管设备的IPv6地址,区别于纳管IPIPv4地址时填写接口名称。

source-address ipv6 ipv6-address

 

[HUB1] grpc enable

[HUB1] telemetry

[HUB1-telemetry] sensor-group device   //采集设备单板、光模板信息

[HUB1-telemetry-sensor-group-device] sensor path device/boards

[HUB1-telemetry-sensor-group-device] sensor path device/extphysicalentities

[HUB1-telemetry-sensor-group-device] sensor path device/physicalentities

[HUB1-telemetry-sensor-group-device] sensor path device/transceivers   //采集光模块信息

[HUB1-telemetry-sensor-group-device] sensor path car/carpolicies  //采集接口car信息,可根据需要配置

[HUB1-telemetry] sensor-group lldp

[HUB1-telemetry-sensor-group-lldp] sensor path lldp/lldpneighbors  //采集lldp信息

[HUB1-telemetry] sensor-group interface

[HUB1-telemetry-sensor-group-interface] sensor path ifmgr/interfaces    //采集接口基础信息

[HUB1-telemetry-sensor-group-interface] sensor path ifmgr/statistics     //采集接口统计信息

[HUB1-telemetry] destination-group sa

[HUB1-telemetry-destination-group-sa] ipv4-address 3.2.139.233 port 50051

//南向被动采集IP,端口号固定为50051

[HUB1-telemetry] subscription sa

[HUB1-telemetry-subscription-sa] sensor-group device sample-interval 60

//采集周期最小支持5秒,周期越小消耗CPU资源越多,用户需根据设备实际情况配置采集周期,非特殊情况建议60s

[HUB1-telemetry-subscription-sa] sensor-group interface sample-interval 60

//采集周期最小支持5秒,周期越小消耗CPU资源越多,用户需根据设备实际情况配置采集周期,非特殊情况建议60s

[HUB1-telemetry-subscription-sa] sensor-group lldp sample-interval 60

//采集周期最小支持5秒,周期越小消耗CPU资源越多,用户需根据设备实际情况配置采集周期,非特殊情况建议60s

[HUB1-telemetry-subscription-sa] source-address interface loopback0

[HUB1-telemetry-subscription-sa] destination-group sa

6.1.5  LLDP使能配置

[Hub1] lldp global enable

6.2  配置采集任务

6.2.1  SNMP采集

1. SNMP模板

说明

SNMP采集不支持上云

 

(1)     进入[分析>分析选项>采集管理>统一采集SNMP]页面。该页面有默认协议模板无需手动增加,当前设备上配置的访问参数为默认时,无需手动增加协议模板。

(2)     进入[分析>分析选项>资源管理>资产管理>资产列表]页面。勾选设备,单击<设置协议>按钮。

(3)     选择“SNMP模板设置”,勾选对应模板后单击<确定>按钮,如6-1所示。

图6-1 SNMP模板设置

 

2. SNMP采集任务

SNMP采集任务默认开启。

6.2.2  NETCONF采集

1. NETCONF模板配置

说明

NETCONF自定义模板和NETCONF Cloud-Management模板使用时二选一即可:

·     NETCONF自定义模板使用SSH连接方式订阅数据。

·     Cloud-Management模板使用WebSocket通道连接订阅数据。当上云时NETCONF采集协议模板仅支持使用“Cloud-Management”。

 

(1)     编辑NETCONF自定义模板

a.     进入[分析>分析选项>采集管理>统一采集>NETCONF]页面。单击<增加>按钮,填写相应信息,单击<确定>按钮,完成增加NETCONF协议模板操作,如6-2所示。

b.     输入模板名称,必填。

c.     输入用户名和密码。

d.     其它参数不变。

注意

配置的用户名和密码需要与设备上配置保持一致,否则分析组件与设备无法建立NETCONF连接,影响相应任务的采集。

 

图6-2 创建NETCONF协议模板

 

(2)     编辑NETCONF Cloud-Management模板

a.     使用NETCONF Cloud-Management模板需要设备上配置相关命令,参见6.1.3  NETCONF配置章节。

b.     Cloud-Management模板默认生成,不需要手动配置。

(3)     NETCONF模板配置引用

a.     进入[分析>分析选项>资源管理>资产管理>资产列表]页面,勾选设备,单击<设置协议>按钮。

b.     选择“NETCONF模板设置”,勾选自定义协议模板或Cloud-Management模板以及WAN通用采集模板后单击<确定>按钮,如6-3~6-5所示。

图6-3 NETCONF自定义协议模板设置

 

图6-4 NETCONF Cloud-Management协议模板设置

 

图6-5 NETCONF采集模板设置

 

2. NETCONF采集任务

NETCONF采集任务默认开启。

6.2.3  gRPC采集

gRPC采集任务默认开启。

 


7 业务功能介绍及配置

AD-WAN分析组件提供了多种业务功能,本章节将介绍各业务的功能简介以及配置方式,可根据实际需求选择对应的功能进行配置。

7.1  添加网络资产及生成拓扑

本章节主要介绍SeerAnalyzer添加网络资产及生成拓扑,是使用SeerAnalyzer功能的基础配置。

7.1.1  解析任务配置

1. DeviceResource解析任务

进入[分析>分析选项>任务管理]页面,启动DeviceResource解析任务,如7-1所示。

图7-1 DeviceResource解析任务

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务如7-2所示。

图7-2 IfKpiAnalysis解析任务

 

3. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-3所示。

图7-3 NodeKpiAnalysis解析任务

 

7.1.2  拓扑生成

(1)     配置完成后等待10分钟左右,进入[分析>健康分析>健康概览>物理拓扑]页面,拓扑自动生成,如7-4所示。

图7-4 生成拓扑

 

(2)     此时可手动调整设备分布或采用自动布局的方式(水平对齐、自动分层布局、按角色分层)调整拓扑,如7-5所示。请注意如需保存调整,请单击图标保存拓扑位置。

图7-5 调整拓扑

 

说明

AD-WAN分支方案中,跨Internet链路的拓扑无法自动获取,需要手动添加。

 

7.2  网络健康度

WAN场景网络健康度分为概览、设备、单板、接口、光模块、链路等页签,展示网络设备的整体健康状况趋势、当前网络设备状况和当前系统中的网络设备列表。默认展示最近24小时内的健康状况变化趋势,可通过页面左上方的时间选择器调整时间范围。

7.2.1  解析任务配置

1. DeviceResource解析任务

进入[分析>分析选项>任务管理]页面,启动DeviceResource解析任务,如7-6所示。

图7-6 DeviceResource解析任务

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-7所示。

图7-7 IfKpiAnalysis解析任务

 

3. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-8所示。

图7-8 NodeKpiAnalysis解析任务

 

4. SNMPTrap解析任务

进入[分析>分析选项>任务管理]页面,启动SNMPTrap解析任务,如7-9所示。

图7-9 SNMPTrap解析任务

 

5. 健康度分析任务

进入[分析>分析选项>任务管理]页面,启动健康度分析任务,如7-10所示。

图7-10 健康度分析任务

 

6. bgpAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动bgpAnalysis解析任务,如7-11所示。

图7-11 bgpAnalysis解析任务

 

7. QACL流处理任务

进入[分析>分析选项>任务管理]页面,启动QACL流处理任务,如7-12所示。

图7-12 QACL流处理任务

 

8. BufferMonitor解析任务

注意

AD-WAN承载网方案需开启该解析任务。

 

进入[分析>分析选项>任务管理]页面,启动BufferMonitor解析任务,如7-13所示。

图7-13 BufferMonitor解析任务

 

7.2.2  结果展示

进入[分析>健康分析>网络分析>网络健康度]页面,默认展示“概览”页签页面,设备健康度正常展示。可通过切换页签查看设备、单板、接口、光模块、链路等详细信息,如7-14~7-25所示。

图7-14 网络健康度概览

 

图7-15 网络设备列表

 

图7-16 设备指标分布

 

图7-17 设备指标趋势

 

图7-18 单板指标分布

 

图7-19 单板指标趋势

 

图7-20 接口指标分布

 

图7-21 接口指标趋势

 

图7-22 光模块健康度

 

图7-23 光模块故障概率预测

 

图7-24 物理链路指标分布

 

图7-25 物理链路指标趋势

 

7.3  变更分析

变更分析展示网络设备历史快照数据的对比统计信息以及对比详细信息,默认展示最近24小时内的快照数据对比统计信息,可以通过时间选择器来调整时间范围。

7.3.1  解析任务配置

1. DeviceResource解析任务

进入[分析>分析选项>任务管理]页面,启动DeviceResource解析任务,如7-26所示。

图7-26 DeviceResource解析任务

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-27所示。

图7-27 IfKpiAnalysis解析任务

 

3. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-28所示。

图7-28 NodeKpiAnalysis解析任务

 

7.3.2  结果展示

进入[分析>健康分析>网络分析>变更分析]页面,展示配置发生变更的设备信息,如7-297-30所示。

图7-29 变更分析页面展示

 

图7-30 变更分析页面展示()

 

7.4  NetStream流分析

NetStream技术是一种基于流的统计技术,可以对网络中的业务流量进行统计和分析。NetStream流分析展示在指定时间范围内五元组(源IP、目的IP、源端口、目的端口、协议类型)信息经过的设备、接口、链路,携带的VPN等信息。流分析分为应用组、应用、接口、接口组、IP组、主机、会话、BGPVPNSRv6 PolicyTTE等维度,从不同维度分别展示流量流入和流出、流量趋势、流量展示列表、流量详情。

7.4.1  解析任务配置

1. NetStream流处理解析任务

进入[分析>分析选项>任务管理]页面,启动NetStream流处理任务,如7-31所示。

图7-31 NetStream流处理任务

 

若使用n-power采样模式,需修改参数“以2的次方模式采样”为“yes”。

图7-32 修改采样方式参数

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis任务,如7-33所示。

图7-33 IfKpiAnalysis解析任务

 

3. SDWAN隧道解析任务

注意

AD-WAN分支方案需开启该解析任务。

 

进入[分析>分析选项>任务管理]页面,启动SDWAN隧道解析任务,如7-34所示。

图7-34 SDWAN隧道解析任务

 

7.4.2  NetStream全局配置

注意

该配置步骤请根据实际需要关注点进行配置。

 

1. 配置应用、应用组

(1)     进入[分析>分析选项>全局配置>应用配置]页面,根据需要配置应用、应用组,如7-357-36所示。鼠标置于“自定义应用分类”上,会有加号弹出,单击加号,配置分类名称,新增应用组。

图7-35 新增应用组

 

图7-36 新增应用组(续)

 

(2)     单击<新建>按钮,7-37所示,在弹出对话框中按需配置相关参数:

图7-37 新增应用

 

表7-1 新增应用参数说明

参数

说明

名称

填写应用名称(只能包含基础汉字、字母、数字、部分特殊字符,且区分大小写,长度不超过36位)。

曾用名

应用曾用名,可按需填写。

简称

应用的简称,非WAN场景使用,可不填写。

全流量链路

WAN场景使用,可不选择。

协议

该应用采集数据的通信协议,可以选择“TCP”、“UDP”或“ANY”(ANY表示不区分协议类型)。

单位

可根据实际情况按需填写。

分类

应用所属的应用分类名称,可根据实际情况按需选择。

级别

可以选择重点、非重点,非WAN场景使用,可不选择。

描述

应用的介绍信息,可根据实际情况按需填写。

客户端IP

应用需要匹配的流量源IP,可以填写IPv4地址、IPv6地址。

客户端端口

应用需要匹配的流量源端口。

服务器IP

应用需要匹配的流量目的IP,可以填写IPv4地址、IPv6地址。

服务器端口

应用需要匹配的流量目的端口。

域名/IP

可根据实际情况按需填写或不填写。

记录类型

WAN场景使用,可不选择,保持默认值即可。不选择时,默认审计类型。

响应时间

WAN场景使用,可不配置,保持默认值即可。

 

(3)     配置完成,单击<保存>按钮,完成新增应用操作。

2. 配置接口组

(1)     进入[分析>分析选项>全局配置>接口组配置]页面,根据需要配置接口组,如7-38所示。单击<新建配置>按钮,在弹出对话框中新增接口组。

图7-38 新增接口组配置

 

(2)     在弹出对话框中按需配置相关参数,如7-39所示。

图7-39 配置接口组参数

 

表7-2 配置接口组参数说明

参数

说明

名称

填写接口组名称,必填项。

描述

接口组描述,可不填写或按实际需要填写。

设备名称

选择接口需要加入接口组的设备,按实际需要填写。

设备IP

选择接口需要加入接口组的设备,按实际需要填写。

接口名称

选择需要加入接口组的接口,按实际需要填写。

 

(3)     配置完成后单击<添加到配置>按钮,完成增加接口组的操作,如7-40所示。

图7-40 接口组

 

3. 配置IP

(1)     进入[分析>分析选项>全局配置>网段配置]页面,根据需要配置IP组,如7-41所示。

图7-41 新增IP组配置

 

(2)     勾选网段,单击<添加>按钮,在弹出对话框中按需配置相关参数,如7-42所示:

图7-42 配置IP组参数

 

表7-3 配置IP组参数说明

参数

说明

是否启用

默认是开启状态,保持不变。

网段名称

IP组名称,必填。

链路名称

WAN场景使用,可不用填写。

IP地址

填写IP地址范围。

 

(3)     配置完成后单击<添加到配置>按钮,完成增加IP组的操作,结果如7-43所示。

图7-43 IP

 

7.4.3  结果展示

进入[分析>健康分析>流分析>Netstream流分析]页面,默认展示接口流量列表。可通过切换页签展示接口、应用组、应用、VPN等流量详情,如7-44~7-55所示。

图7-44 NetStream流分析页面展示-接口维度Underlay

 

图7-45 NetStream流分析页面展示-接口维度Overlay

 

图7-46 NetStream流分析页面展示-接口组维度

 

图7-47 NetStream流分析页面展示-应用维度

 

图7-48 NetStream流分析页面展示-应用组维度

 

图7-49 NetStream流分析页面展示-IP组维度

 

图7-50 NetStream流分析页面展示-主机维度

 

图7-51 NetStream流分析页面展示-会话维度

 

图7-52 NetStream流分析页面展示-BGP维度

 

图7-53 NetStream流分析页面展示-VPN维度

 

图7-54 NetStream流分析页面展示-SRv6-Policy维度(仅AD-WAN承载网方案支持)

 

图7-55 NetStream流分析页面展示-TTE维度(仅AD-WAN分支方案支持)

 

7.5  网络路径检测

网络路径检测采用NQA TWAMP-light在需要进行检测的指定的源IP和目的IP两端进行路径时延、抖动、丢包探测。分析组件采集并分析网络中所有设备TWAMP模块的测试会话数据和测试结果数据,对其根据不同的时间粒度进行计算,实现对网络中各个转发路径的质量测量和分析,当前支持TWAMP双向、单向时延,TWAMP for trunk双向、单向时延的质量采集分析。

7.5.1  解析任务配置

1. TwampStream解析任务

(1)     进入[分析>分析选项>任务管理]页面,启动TwampStream解析任务,如7-56所示。

图7-56 TwampStream解析任务

 

(2)     采用gRPC采集,需要设置解析任务中的采集周期7-57所示。

图7-57 调整gRPC采集周期

 

2. 设置告警阈值

说明

·     全局告警阈值可以采用默认阈值(时延是200000us,抖动50000us,丢包率和错包率30%),也可以根据需要进行修改。

·     支持针对单个质量探测单独进行阈值修改,只对该质量探测会话生效。

 

(1)     进入[分析>健康分析>网络分析>网络业务分析>网络路径检测]页面,单击<全局阈值配置>按钮,在弹出对话框中修改阈值,如7-58所示,全局阈值针对所有质量探测生效。

图7-58 全局阈值设置

 

(2)     进入[分析>健康分析>网络分析>网络业务分析>网络路径检测]页面,在需要单独配置阈值的质量探测操作列单击“阈值配置”按钮,在弹出对话框中单击“配置该网络路径阈值”链接,在对话框中按需对单条路径的阈值进行修改,如7-59~7-61所示。

图7-59 单独配置质量探测阈值

 

图7-60 阈值配置情况

 

图7-61 配置阈值

 

3. 异常分析任务

进入[分析>分析选项>任务管理]页面,启动异常分析任务,如7-62所示。

图7-62 异常分析任务

 

7.5.2  结果展示

(1)     进入[分析>健康分析>网络分析>网络业务分析>网络路径检测]页面。该页面展示网络中各个转发路径的质量信息。单击操作列“详情”按钮进入路径质量详情页面,展示网络路径的时延、抖动、丢包率、错包率趋势图,如7-63~7-67所示。

图7-63 网络路径检测-TOPN数据展示

 

图7-64 网络路径检测-业务质量列表

 

图7-65 质量趋势图

 

图7-66 质量趋势图(续)

 

图7-67 告警推送异常分析

 

(2)     单向时延质量探测的正向和反向时延趋势展示,默认不展示。开启单向时延探测时,进入[分析>健康分析>网络分析>网络业务分析>网络路径检测]页面,单击操作列<详情>按钮进入路径检测详情页面,如7-68所示。

注意

AD-WAN承载网方案支持本操作

 

图7-68 路径检测详情页面

 

(3)     单击“设置”按钮,单击<添加仪表>,勾选“正向时延/反向时延图表”,单击<确定>按钮,完成仪表添加,如7-697-70所示。

注意

AD-WAN承载网方案支持本操作

 

图7-69 添加正向时延/反向时延图表

 

图7-70 正向时延/反向时延趋势图

 

7.6  链路流量

链路流量展示网络链路在指定时间段的链路利用情况。通过手动设置利用率告警阈值,超过阈值的链路会产生告警信息;通过设置AI预测时长和AI预测开关,可以根据链路历史数据预测该条链路在未来一段时间的流量利用率与速率。AI预测利用率若高于利用率告警阈值,或低于低利用率告警阈值,系统会给出相应的链路扩缩容建议,并生成链路容量优化预测报表。

7.6.1  解析任务配置

1. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-71所示。

图7-71 IfKpiAnalysis解析任务

 

2. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-72所示。

图7-72 NodeKpiAnalysis解析任务

 

7.6.2  设置告警阈值和开启AI预测

(1)     进入[健康分析>网络分析>网络健康度>链路>物理链路]页面,单击链路-指标趋势列表区域“设置”按钮,如7-73所示,可对链路流量告警阈值和AI预测时长进行配置。

图7-73 链路流量设置

 

(2)     进入[健康分析>网络分析>网络健康度>链路>物理链路]页面,勾选需关注链路的AI预测状态,如7-74所示。AI预测将根据该链路历史数据预测该条链路在未来一段时间的流量利用率与速率。预测趋势图可通过单击操作列“详情”按钮进入链路详情页查看。

图7-74 开启AI预测

 

(3)     AI预测利用率若高于利用率告警阈值或低于低利用率告警阈值会在[分析>诊断分析>事件分析]中生成告警,给出扩缩容建议;链路容量优化预测复合报表可以查看所有链路的扩缩容建议。

7.6.3  结果展示

(1)     进入[分析>健康分析>网络分析>网络健康度>链路>物理链路]页面,展示物理链路在指定时间段内的链路利用情况。开启AI预测状态,在详情页面展示链路在未来一段时间的流量利用率与速率。展开列表展示链路利用率和速率趋势图,如7-75~7-78所示。

图7-75 物理链路

 

图7-76 物理链路-上下行速率

 

图7-77 物理链路-AI预测速率

 

图7-78 物理链路-上下行带宽历史和未来趋势

 

(2)     [分析>报表>报表模板>报表模板列表]中选择链路容量优化预测复合报表查看复合报表,如7-79所示。

图7-79 链路容量优化预测复合报表

 

7.7  路由监控

路由监控功能可以对设备上已配置的路由协议最近一次更新的路由邻居信息进行展示。

7.7.1  解析任务配置

路由邻居信息后台任务自动分析。

7.7.2  结果展示

进入[分析>健康分析>网络分析>网络业务分析>路由监控]页面,展示物理拓扑及设备上最新一次更新的路由邻居信息,如7-80~7-83所示。

图7-80 路由监控-BGP

 

图7-81 路由监控-OSPF

 

图7-82 路由监控-IS-IS

 

图7-83 路由监控-OSPFv3

 

7.8  异常分析

异常分析功能展示在所选时间内,整个组网中发生故障的统计,可通过切换页签查看基于设备、网络、协议分类后的故障信息。

7.8.1  解析任务配置

1. 异常分析任务

进入[分析>分析选项>任务管理]页面,启动异常分析任务,如7-84所示。

图7-84 异常分析任务

 

2. 异常分析Java任务

进入[分析>分析选项>任务管理]页面,启动异常分析Java任务,如7-85所示。

图7-85 异常分析Java任务

 

3. 开启网络健康度相关解析任务

参见7.2.1  解析任务配置章节。

7.8.2  结果展示

进入[分析>诊断分析>异常分析]页面,展示组网中发生故障的统计,可通过切换页签查看基于设备、网络、协议分类的故障信息,如7-86所示。

图7-86 异常分析

 

7.9  事件分析

事件分析功能可以基于不同的事件类型进行数据展示。网络事件:展示用户所选时间范围内,系统中发生问题基于各问题类型的统计,通过对问题的逐步细化,最终展示都有哪些设备发生此类问题。

7.9.1  解析任务配置

1. SNMPTrap解析任务

进入[分析>分析选项>任务管理]页面,启动SNMPTrap解析任务,如7-87所示。

图7-87 SNMPTrap解析任务

 

7.9.2  结果展示

进入[分析>诊断分析>事件分析]页面,基于网络事件对系统中发生的问题进行细化展示,如7-88所示。

图7-88 网络事件

 

7.10  智能预测

智能预测采用统计学习和机器学习的方法,对时序数据(KPI)进行规律分析,拟合并预测数据的未来走势,生成基线和预测结果。

7.10.1  解析任务配置

1. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-89所示。

图7-89 IfKpiAnalysis解析任务

 

2. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-90所示。

图7-90 NodeKpiAnalysis解析任务

 

7.10.2  启动AI预测任务

进入[分析>预测分析>AI任务管理]页面,启动AI预测任务,如7-91所示。

图7-91 启动AI预测任务

 

没有产生时序数据(KPI)的设备无法进行智能预测,时序数据由其他模块推送而来,其中CPU、内存、设备丢包、错包配置参见7.2  网络健康度章节,NQA链路配置参见7.16  链路可用度章节。

7.10.3  结果展示

进入[分析>预测分析>智能预测]页面,展示纳管的设备列表,单击列表操作列“查看详情”按钮,基于KPI选择展示设备详情,包括实际值、预测值、上界值、下界值,如7-927-93所示。

图7-92 智能预测列表

 

图7-93 智能预测详情

 

7.11  报表

报表模板列表展示了当前操作员可操作的所有报表模板,用户可自定义查询某业务报表,支持多种文件格式导出,同时也支持报表模板按照一定的频率统计数据自动生成周期性的报表文件。

7.11.1  报表模板列表

1. 网元报表查询

进入[分析>报表>报表模板>报表模板列表]页面,单击选中的报表名称链接,如7-94所示,按需配置相关参数。

·     选择报表:网元报表(以“网元报表”为例)。

·     自定义参数配置:开始时间、结束时间。

·     其他的参数为选填

图7-94 参数设置

 

2. 链路报表查询

进入[分析>报表>报表模板>报表模板列表]页面,单击选中的报表名称,如7-95所示。本例中以“IGP链路流量报表”为例。按需配置相关参数。

图7-95 参数设置

 

3. 应用报表查询

进入[分析>报表>报表模板>报表模板列表]页面,单击选中的报表名称,如7-96所示。本例中以“Netstream报表”为例。按需配置相关参数。

图7-96 参数设置

 

4. SRv6 Policy流量统计报表

开启FlinkNetConf解析任务,如7-97所示。

图7-97 FlinkNetConf解析任务

 

5. IGP链路队列流量报表

开启BufferMonitor解析任务,如7-98所示。

图7-98 BufferMonitor解析任务

 

6. IGP链路队列质量报表

采集解析任务请参考7.5  网络路径检测章节中针对双向时延质量探测的配置。

7. L3VPN业务E2E质量报表

采集解析任务请参考7.5  网络路径检测章节中针对双向时延质量探测的配置。

8. L2VPN-AC流量报表

可以通过NETCONF采集或gRPC采集L2VPN-AC流量。

采集解析任务请参考7.6.1  解析任务配置章节。

9. L2VPN-L3Interface流量报表

可以通过NETCONF采集或gRPC采集L2VPN-L3Interface流量。

采集解析任务请参考7.6.1  解析任务配置章节中的解析任务配置。

10. VPWS-AC流量报表

可以通过NETCONF采集或gRPC采集VPWS-AC流量。

采集解析任务请参考7.6.1  解析任务配置章节中的解析任务配置。

11. VPWS-L3 Interface流量报表

可以通过NETCONF采集或gRPC采集VPWS-L3interface流量。

采集解析任务请参考7.6.1  解析任务配置章节中的解析任务配置。

7.11.2  周期报表列表

1. 配置邮箱

进入[系统>系统配置>邮件服务器配置]页面,可配置邮箱接收报表,如7-99所示。

图7-99 邮件服务器配置

 

表7-4 邮件服务器参数说明

参数

说明

邮件服务器地址

邮件服务器的域名或IP,有效长度为1-255

邮件服务器端口

有效值为1-65535之间的整数。

邮件服务器要求安全连接(SSL/TLS)

默认无,支持TLSv1/TLSv1.1/TLSv1.2/SSL/无。

用户名

连接邮箱服务器的用户名,有效长度为1-128

密码

连接邮箱服务器的密码,有效长度为1-64

发件人邮件地址

发件人的邮箱地址,有效长度为1-255

 

2. 配置周期报表

进入[分析>报表>报表任务>周期报表列表]页面,单击<增加>按钮,增加周期列表,如7-1007-1017-102所示。

图7-100 增加周期报表

 

图7-101 增加周期报表(续)

 

图7-102 增加周期报表(续)

 

表7-5 周期报表参数说明

参数

说明

模板名称

不可输入,单击<选择模板>按钮,选择内置的报表模板,必选。

周期报表名称

必填(只能包含中文字符、英文字母、数字和()-_,不少于1位字符,不超过64位字符)。

周期类型

单选,支持天、周、月、季度、半年、年几种类型,必填,默认为天。

周期开始日期

时间控件选择周期开始日期,必填。

报表失效时间

时间控件选择报表失效时间。

参数值

设置报表的在每周期的开始时间和结束时间,以及其他一些参数,必填。

报表格式

单选,支持XLSXPDFXLSDOCX等格式。

邮箱地址

选填(邮件地址长度1~255,最多添加10个目的邮件地址)。

资源分组

分析组件不填。

 

7.11.3  结果展示

进入[分析>报表>报表模板>报表模板列表]页面,选择报表模板,展示报表数据,如7-103~7-114所示。

图7-103 网元报表

 

图7-104 IGP链路流量报表

 

图7-105 Netsream报表

 

图7-106 SRv6Policy流量统计报表-TOP10趋势图(承载网)

 

图7-107 SRv6 Policy流量统计报表-统计列表(承载网)

 

图7-108 IGP链路队列流量报表(承载网)

 

图7-109 IGP链路队列质量报表(承载网)

 

图7-110 L3VPN业务E2E质量报表(承载网)

 

图7-111 L2VPN-AC流量报表(承载网)

 

图7-112 L2VPN-L3 Interfaces流量报表(承载网)

 

图7-113 VPWS-AC流量报表(承载网)

 

图7-114 VPWS-L3 Interface流量报表(承载网)

 

7.12  RIR调度日志分析

分析组件对采用Flow日志机制上报的调度信息进行分析,找出链路发生调度的原因。可展示指定时间段范围内的事件类型分布图、事件类型调度次数Top10、站点间调度次数Top10和调度列表。事件类型目前支持链路故障、质量变化、带宽变化、配置变化、优化调度等,可通过选择具体的事件类型查看调度详情信息。

注意

AD-WAN分支方案支持本功能。

 

7.12.1  解析任务配置

1. RIR调度日志分析批处理解析任务

进入[分析>分析选项>任务管理]页面,启动RIR调度日志分析批处理解析任务,如7-115所示。

图7-115 RIR调度日志分析批处理任务

 

2. SDWAN隧道解析任务

进入[分析>分析选项>任务管理]页面,启动SDWAN隧道解析任务,如7-116所示。

图7-116 SDWAN隧道解析批处理任务

 

7.12.2  应用组配置

说明

分析组件可以通过调用控制组件获取应用组和链路信息,自动匹配到控制组件中定义的应用组。

 

具体可参考控制组件最新配置指导中配置应用组章节。

7.12.3  结果展示

进入[分析>健康分析>应用分析>RIR调度日志分析]页面,展示链路发生调度的事件类型分布图、事件类型调度次数Top10、站点间调度次数Top10及选路前后的详情信息,如7-1177-118所示。

图7-117 RIR调度日志分析

 

图7-118 RIR调度日志调度列表

 

7.13  UserLog流分析

UserLog流分析功能通过采集和分析网络中所有设备的流会话日志数据,展示网络中应用及其流量信息,实现对UserLog流的质量监控和分析。

注意

AD-WAN分支方案支持本功能。

 

7.13.1  解析任务配置

进入[分析>分析选项>任务管理]页面,启动用户日志分析任务,如7-119所示。

图7-119 用户日志分析任务

 

7.13.2  结果展示

进入[分析>健康分析>应用分析>Userlog流分析]页面,展示设备的会话日志列表,单击会话日志列表展示流量的五元组信息,单击五元组信息进入Userlog详情页面,展示会话日志详情,如7-120所示。

图7-120 会话日志列表

 

7.14  URL审计

URL审计功能通过采集和分析网络设备的日志信息,实现对用户访问URL的监控,达到规范用户上网行为的目的。这里的网络设备是指已配置URL拦截策略的路由器。仅支持对基于HTTP协议的URL进行监控。

7.14.1  解析任务配置

注意

AD-WAN分支方案支持本功能。

 

进入[分析>分析选项>任务管理]页面,启动URL审计日志分析任务,如7-121所示。

图7-121 URL审计日志分析任务

 

7.14.2  结果展示

进入[分析>健康分析>应用分析>URL审计]页面,展示设备访问列表,单击设备访问列表,展示域名及访问次数。单击域名列表展示源IP及访问次数。单击源IP列表进入URL访问详情页,展示设备上指定应用的访问详情信息。

图7-122 URL访问列表

 

7.15  音视频质量分析

音视频质量分析功能通过监控客户端、服务器、媒体网关等接入的网络设备上音视频流量质量,针对频发的丢包、抖动变大等设备,结合设备健康度等指标及时发现网络问题,并通过网络扩容或者寻求音视频方案提供商等手段来保障音视频流量质量。

注意

AD-WAN分支方案支持本功能。

 

7.15.1  解析任务配置

1. 音视频质量分析流处理

进入[分析>分析选项>任务管理]页面,启动音视频质量分析流处理任务,如7-123所示。

图7-123 音视频质量分析流处理

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-124所示。

图7-124 IfKpiAnalysis解析任务

 

3. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-125所示。

图7-125 NodeKpiAnalysis解析任务

 

7.15.2  结果展示

进入[分析>健康分析>应用分析>音视频质量分析]页面,查看MOS分布、会话统计、流量趋势图、会话列表等仪表,有数据展示,如7-126所示。

图7-126 音视频质量分析展示

 

7.16  链路可用度

链路可用度采用NQA探测技术,设备通过发送探测报文对链路状态、网络性能、网络提供的服务及服务质量进行分析从而获取链路的时延、抖动、丢包信息。分析组件采集设备端的NQA探测结果,经过计算在页面展示网络链路在指定时间段的可用度情况。

注意

AD-WAN承载网方案支持本功能。

 

7.16.1  解析任务配置

1. NqaStream解析任务

进入[分析>分析选项>任务管理]页面,启动NqaStream解析任务,如7-127所示。

图7-127 NqaStream解析任务

 

2. DeviceResource解析任务

进入[分析>分析选项>任务管理]页面,启动DeviceResource解析任务,如7-128所示。

图7-128 DeviceResource解析任务

 

3. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务如7-129所示。

图7-129 IfKpiAnalysis解析任务

 

7.16.2  结果展示

进入[分析>健康分析>链路分析>链路可用度]页面,展示网络链路在指定时间段的可用度情况。采集器采集设备端的NQA报文,从中获取时延、抖动、丢包率等指标,根据配置页面不同的计算基准,计算出可用度及相关指标,在列表页和详情页进行展示,如7-1307-131所示。

图7-130 设置计算基准

 

图7-131 链路可用度

 

7.17  随流分析

随流分析包括iFITin-situ Flow Information Telemetry),iFIT是一种应用于MPLSMultiprotocol Label Switching,多协议标签交换)、SRSegment Routing,分段路由)和IPv6 SRSRv6)网络的、测量网络性能指标的测量技术,它直接测量业务报文的真实丢包率和时延等参数,具有部署方便、统计精度高等优点。

注意

AD-WAN承载网方案支持本功能。

 

7.17.1  解析任务配置

进入[分析>分析选项>任务管理]页面,启动iFIT流分析任务,如7-132所示。

图7-132 iFIT流分析任务

 

7.17.2  iFIT探测实例配置

注意

·     iFIT探测实例需在分析组件页面上进行配置,其中,设备标识(device-id)只需要在探测实例源设备上进行配置,作为iFIT监控唯一标识,需要确保整网设备device-id不同。

·     iFIT配置较为灵活,只需要在首节点配置探测实例,其余节点使能iFIT即可。

·     下发实例配置前,必须使用gRPC采集接口信息。

·     配置L3VPN/L2VPN探测实例时,VPN信息可通过gRPC采集设备上已配置的VPN信息进行获取。

 

进入[分析>健康分析>服务质量分析>随流分析]页面,单击<iFIT配置>按钮,如7-133所示,进入配置下发页面。

图7-133 iFIT配置

 

1. 全局配置

(1)     若组网中的设备已配置过iFIT,可直接同步网络中设备已有配置。操作方法:需在配置NETCONF采集模板时,勾选“iFIT_Global”采集项,等待一个采集周期后,单击<同步>按钮,同步设备上已有的iFIT全局信息,如7-134所示。

图7-134 同步设备iFIT全局信息

 

(2)     若组网中的设备未配置过iFIT,可单击<增加设备>按钮添加,如7-135所示,在弹出窗口中填写设备基本信息。

图7-135 添加设备iFIT全局信息

 

表7-6 iFIT全局信息参数说明

参数

说明

老化系数

配置动态监控流的老化时间。动态监控流的老化时间=测量周期×老化系数,取值范围为2100

设备名称/设备IP

选择需要配置iFIT的设备,组网中使用iFIT功能的设备均需配置。

设备标识

iFIT测量网络中设备的唯一标识,取值范围为1-1048575。支持手动填写和系统自动分配,需要确保整网设备的设备标识均不同。

全局下一跳IP

用于指定下一跳PE设备。

·     MPLS/SR-MPLS组网中,iFIT探测首节点必须配置此项,用于指定对端PE。设备将对转发往该PE的业务流开启iFIT探测。

·     SRv6组网无需配置。

·     iFIT探测首节点设备无需配置。

 

7-135所示配置,全局配置信息如下:

ifit enable

device-id 3

dynamic-flow aging-time 30

encapsulation nexthop 2.3.3.2

encapsulation nexthop 2.3.3.3

encapsulation nexthop 21.3.3.2

2. 监控策略配置

(1)     进入[监控策略配置]页面,配置阈值管理策略和模式转换策略。

(2)     配置阈值管理策略:单击<增加>按钮,如7-136所示,在弹出窗口中配置监控流的阈值模板。系统支持对监控流的时延、抖动和丢包指标进行阈值设置,当监控流数据指标超过系统设定的阈值时,系统会对监控流的超阈值指标进行染色。

图7-136 配置监控流的阈值模板

 

丢包阈值可以通过两种方式进行设置,如7-137所示:

¡     当输入为正整数时,表示设置丢包数阈值。

¡     当输入为百分数时,表示设置丢包率阈值。

图7-137 丢包阈值的两种方式

 

(3)     配置模式转换策略:单击<增加>按钮,如7-138所示,在弹出窗口中配置监控实例测量模式的转换策略。当监控实例为端到端测量模式,且开启模式自动切换时,系统会自动检测最近连续N个周期内的端到端时延、抖动、丢包是否超阈值,若存在连续N个周期超阈值时,监控实例会从端到端测量模式自动切换至逐点测量模式。其中N为该实例绑定的模式转换策略中连续超阈值的次数。

图7-138 配置模式转换策略

 

3. 监控实例配置

(1)     进入[监控实例配置]页面,单击<增加实例>按钮,进入增加实例页面,如7-139所示。

图7-139 增加实例

 

(2)     7-140所示,在弹出窗口中选择监控流源设备和目的设备;绑定接口需要选择监控流在源设备的流量入接口,当前只支持绑定三层物理接口。其中绑定接口、目的设备和中间设备支持选择多个。

图7-140 选择监控设备

 

(3)     配置完成,单击<下一步>按钮,进入配置实例名称页面,填写实例名称和实例描述信息,7-141所示。

¡     实例名称:发到设备上的监控流名称。

¡     实例描述:分析组件TOPN页面展示的监控流名称。

图7-141 配置实例名称

 

(4)     配置完成,单击<下一步>按钮进入配置测量参数页面,选择测量周期和测量模式,7-142所示。

¡     测量周期:支持选择1s10s30s

¡     测量模式:支持端到端和逐点两种探测方式。

图7-142 配置测量参数

 

(5)     配置完成,单击<下一步>按钮进入配置实例参数页面,按需选择配置方案,监控流支持的配置方案如7-143所示。“[]”里的内容是可选项。本文以源IP+目的IP+协议+源端口配置方案为例。

图7-143 配置方案

 

图7-144 IP+目的IP+协议+源端口配置方案

 

表7-7 配置方案参数说明

参数

说明

IP

指定监控流的源IP地址,可指定掩码,如3.3.3.0/243::/96;不指定掩码时,表示精确匹配源IP地址,如3.3.3.03::

目的IP

指定监控流的目的IP地址,格式同源IP

协议

指定监控流承载的协议类型。不指定该参数时,表示对监控流承载的协议类型无限制。支持的协议包括STCPTCPUDP

/目的端口

指定监控流的源/目的端口号,取值范围为065535。不指定该参数时,表示对监控流的目的端口号无限制。源/目的端口只有在配置协议后才能填写。

DSCP

指定监控流的DSCP值,取值范围为063

PeerLocator

指定监控流所属的Locator段。格式为:prefix/prefix-lengthprefix表示IPv6地址前缀,prefix-length表示IPv6地址前缀长度,取值范围为32120

下一跳IP

指定监控流的下一跳IP地址,只有L3VPN支持下一跳的配置方式,格式为L3VPN+下一跳。

VPN类型

指定监控流的VPN类型,支持L3VPNVPWSVPLS三种类型,指定VPN类型后填写指标会随着变化。

 

(6)     配置完成,单击<下一步>按钮,进入选择监控阈值页面,选择要绑定的阈值名称,可根据业务是否需要进行模式转换选择填写策略名称,如7-145 所示。

图7-145 选择监控阈值

 

(7)     配置完成,单击<确认提交>按钮,完成配置下发。配置下发成功后,监控实例配置页面可以看到下发的监控流信息,如7-146所示。

图7-146 监控流实例配置

 

在源设备可以查看下发到设备的配置信息:

instance 14

flow unidirection source-ip 41.0.0.2 destination-ip 43.0.0.2 protocol tcp source-port 14

bind interface Ten-GigabitEthernet2/4/4

measure enable

7.17.3  iFIT探测典型配置举例

1. IPv4 L3VPN over SRv6组网进行iFIT统计

配置前提:

·     完成IPv4 L3VPN over SRv6网络的搭建。

·     设备配置PTP基本功能和gRPC基础配置。

参考组网,配置iFIT探测实例:测量源端1.1.1.1到目的端2.2.2.2的业务流在VPN实例vpn1内传输的性能参数,流量入口XGE3/0/0,流量路径PE1-P1-P3-PE3。配置使用阈值模板global,时延阈值300000us、抖动阈值5000us、丢包率阈值0.1%;配置监控策略模板test,超阈值次数3,开启测量模式自动切换。配置流程如下:

(1)     进入[分析>服务质量分析>随流分析]页面,单击<iFIT配置>按钮进入配置页面。在“全局配置”页面,单击<增加设备>按钮,在弹出窗口中分别填写PE1P1P3PE3设备信息,分配Device ID分别为31001401,如7-147所示。

图7-147 增加设备

 

(2)     进入[监控策略配置]页面,新增模式转换策略“test”,如7-148所示。

图7-148 新增监控策略配置

 

(3)     进入[监控实例配置]页面,单击<增加实例>按钮,增加监控源设备PE1和目的设备PE3,选择绑定接口XGE3/0/0,中间设备选择P1P3,如7-149所示。

图7-149 选择监控设备

 

(4)     配置完成,单击<下一步>按钮,在弹出窗口中创建一个iFIT探测实例,配置实例名称为“L3VPN”,实例描述为“L3VPN_五元组”,如7-150所示。

图7-150 配置实例名称

 

(5)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例测量周期为“30s”,测量模式为“端到端”,如7-151所示。

图7-151 配置测量参数

 

(6)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例的探测流量信息,VPN类型和IP类型分别选择“L3VPN”和“IPv4”,IP为“1.1.1.1”,目的IP为“2.2.2.2”,VPN选择“vpn1”,7-152所示。

图7-152 配置实例参数

 

(7)     配置完成,单击<下一步>按钮,在弹出窗口中选择监控实例的阈值模板为“global”,策略模板为“test”,如7-153所示。配置完成后单击<确认提交>按钮,完成实例下发。

图7-153 配置监控阈值和策略

 

2. IPv6 EVPN L3VPN over SRv6组网进行iFIT统计

配置前提:

·     完成IPv6 EVPN L3VPN over SRv6网络的搭建。

·     设备配置PTP基本功能和gRPC基础配置。

参考组网,配置iFIT探测实例:测量源端1::1到目的端2::2的业务流在VPN实例VPN1内传输的性能参数,流量入口XGE3/0/0,流量路径PE1-P1-P3-PE3。配置使用阈值模板global,时延阈值300000us、抖动阈值5000us、丢包率阈值0.1%;配置监控策略模板test,超阈值次数3,开启测量模式自动切换。配置流程如下:

(1)     进入[分析>服务质量分析>随流分析]页面,单击<iFIT配置>按钮进入配置页面,在“全局配置”页面,单击<增加设备>按钮,在弹出窗口中分别填写PE1P1P3PE3设备信息,分配Device ID分别为31001401,如7-154所示。

图7-154 增加设备

 

(2)     进入[监控策略配置]页面,新增模式转换策略“test”,如7-155所示。

图7-155 新增监控策略配置

 

(3)     进入[监控实例配置]页面,单击<增加实例>按钮,选择监控源设备PE1和目的设备PE3,选择绑定接口XGE3/0/0,中间设备选择P1P3,如7-156所示。

图7-156 选择监控设备

 

(4)     配置完成,单击<下一步>按钮,在弹出窗口中创建一个iFIT探测实例,配置实例名称为“IPv6”,实例描述为“L3VPN_IPv6”,如7-157所示。

图7-157 配置实例名称

 

(5)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例测量周期为“30s”,测量模式为“端到端”,如7-158所示。

图7-158 配置测量参数

 

(6)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例的探测流量信息,VPN类型选择“L3VPN”,IP类型选择“IPv6”,IP为“1::1”,目的IP为“2::2”,VPN选择“VPN 1”,7-159所示。

图7-159 配置实例参数

 

(7)     配置完成,单击<下一步>按钮,在弹出窗口中选择监控实例的阈值模板为“global”,策略模板为“test”,如7-160所示。配置完成后单击<确认提交>按钮,完成实例下发。

图7-160 选择监控阈值

 

3. EVPN VPWS over SRv6组网进行iFIT统计

配置前提:

·     完成EVPN VPWS over SRv6网络的搭建。

·     设备配置PTP基本功能和gRPC基础配置。

·     参考组网,配置iFIT探测实例:测量业务流从交叉连接组connet交叉连接xcgroup,传输到PeerLocator 33::/64的性能参数,流量路径PE1-P1-P3-PE3。配置使用阈值模板global,时延阈值300000us、抖动阈值5000us、丢包率阈值0.1%;配置监控策略模板test,超阈值次数3,开启测量模式自动切换。配置流程如下:

(1)     进入[分析>服务质量分析>随流分析]页面,单击<iFIT配置>按钮进入配置页面。在“全局配置”页面,单击<增加设备>按钮,在弹出窗口中分别填写PE1P1P3PE3设备信息,分配Device ID分别为31001401,如7-161所示。

图7-161 增加设备

 

(2)     进入[监控策略配置]页面,新增模式转换策略模板“test”,如7-162所示。

图7-162 新增监控策略配置

 

(3)     进入[监控实例配置]页面,单击<增加实例>按钮,选择监控源设备PE1和目的设备PE3,选择绑定接口XGE3/0/0,中间设备选择P1P3,如7-163所示。

图7-163 选择监控设备

 

(4)     配置完成,单击<下一步>按钮,在弹出窗口中创建一个iFIT探测实例,配置实例名称为“VPWS”,实例描述为“VPWS-peerlocator”,如7-164所示。

图7-164 配置实例名称

 

(5)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例测量周期为“30s”,测量模式为“端到端”,如7-165所示。

图7-165 配置测量参数

 

(6)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例的探测流量信息,VPN类型选择VPWSIP类型不做选择,PeerLocator配置为“33::/64XCGName配置为“connectConnectionName配置为“xcgroup7-166所示。

图7-166 配置实例参数

 

(7)     配置完成,单击<下一步>按钮,在弹出窗口中选择监控实例的阈值模板为“global”,策略模板为“test”,如7-167所示。

图7-167 选择监控阈值

 

4. EVPN VPLS over SRv6组网进行iFIT统计

配置前提:

·     完成EVPN VPLS over SRv6网络的搭建。

·     设备配置PTP基本功能和gRPC基础配置。

参考组网图,配置iFIT探测实例:测量业务流从VSI vsi1传输到PeerLocator 6:5::/96的性能参数,流量路径PE1-P1-P3-PE3。配置使用阈值模板global,时延阈值300000us、抖动阈值5000us、丢包率阈值0.1%;配置监控策略模板test,超阈值次数3,开启测量模式自动切换。配置流程如下:

(1)     进入[分析>服务质量分析>随流分析]页面,单击<iFIT配置>按钮进入配置页面。在“全局配置”页签,单击<增加设备>按钮,在弹出窗口中分别填写PE1P1P3PE3设备信息,分配Device ID分别为31001401,如7-168所示。

图7-168 增加设备

 

(2)     进入监控策略配置页面,新增模式转换策略模板“test”,如7-169所示。

图7-169 新增监控策略配置

 

(3)     进入[监控实例配置]页面,单击<增加实例>按钮,选择监控源设备PE1和目的设备PE3,选择绑定接口XGE3/0/0,中间设备选择P1P3,如7-170所示。

图7-170 选择监控设备

 

(4)     配置完成,单击<下一步>按钮,在弹出窗口中创建一个iFIT探测实例,配置实例名称为“VPLS”,实例描述为“VPLS-peerlocator”,如7-171所示。

图7-171 配置实例名称

 

(5)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例测量周期为“30s”,测量模式为“端到端”,如7-172所示。

图7-172 配置测量参数

 

(6)     配置完成,单击<下一步>按钮,在弹出窗口中配置实例的探测流量信息,VPN类型选择“VPLS”,IP类型不做选择,PeerLocator配置为“6:5::/96”,VsiName配置为“vsi1”,7-173所示。

图7-173 配置实例参数

 

(7)     配置完成,单击<下一步>按钮,在弹出窗口中选择监控实例的阈值模板为“global”,策略模板为“test”,如7-174所示。配置完成后单击<确认提交>按钮,完成实例下发。

图7-174 选择监控阈值

 

7.17.4  结果展示

进入[分析>健康分析>服务质量分析>随流分析]页面,页面展示监控流时延超阈值比率TOPN、监控流抖动超阈值比率TOPN、监控流丢包超阈值比率TOPN、监控流时延TOPN、监控流丢包率TOPN、监控流包速率TOPN、监控流报表,监控流转发路径,如7-175~7-180所示。

图7-175 监控性能参数超阈值比率TOPN

 

图7-176 监控流包速率TOPN

 

图7-177 监控流报表

 

图7-178 监控流转发路径

 

图7-179 监控流报表详情页面-性能统计

 

图7-180 监控流报表详情页面-趋势图

 

7.18  能效分析

能效分析提供多项分析功能,可以帮助用户更好地了解网络设备的能源消耗情况,并提供有效的能源管理和控制手段。通过概览、功耗分布、对比分析等页面可视化展示选定区域和时间段的总功耗量、总碳排放量、总费用等信息以及与上一个时间段相比的节省值,帮助用户快速了解网络设备的能源消耗情况,找到能源消耗的瓶颈。支持根据实际情况进行参数设置,如耗电排放因子、树抵消植和电价等,从而提供更加细致的管理和控制手段,更好地进行能源管理和控制。

注意

AD-WAN承载网方案支持本功能。

 

7.18.1  解析任务配置

1. DeviceResource解析任务

进入[分析>分析选项>任务管理]页面,启动DeviceResource解析任务,如7-181所示。

图7-181 DeviceResource解析任务

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-182所示。

图7-182 IfKpiAnalysis解析任务

 

3. NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动NodeKpiAnalysis解析任务,如7-183所示。

图7-183 NodeKpiAnalysis解析任务

 

7.18.2  能效分析参数配置

进入[分析->能效分析>网络能效分析>参数设置]页面,配置耗电排放因子、树抵消值和电价参数,如7-184所示。

图7-184 能效分析参数设置

 

7.18.3  结果展示

进入[分析>能效分析>网络能效分析>概览]页面,查看指定区域或全部区域的能耗概览数据,如7-185所示。

图7-185 概览页面数据

 

切换到功耗分布页签,查看整机功耗分布趋势图、功耗实际取值面积图和指标趋势列表,如7-186所示。

图7-186 整机功耗

 

7.19  仿真分析

仿真是基于同步的现网设备配置、网络拓扑以及流量信息,解析还原整网拓扑和协议。根据实现原理不同,分为模拟仿真分析和设备仿真分析,其中模拟仿真分析使用内置的软件算法模拟路由协议进行仿真,而设备仿真分析使用分析组件与虚拟路由器相结合实现仿真。两种方式都可以通过导入网络仿真流量,指定网络关键网元或者链路故障等实现模拟流量调优,故障点对业务的影响,通过模拟前后拓扑呈现、流量路径仿真的方式为网络分析和维护提供参考。

注意

AD-WAN承载网方案支持本功能。

 

7.19.1  设备仿真分析

进入仿真分布页面,选择设备仿真分析,如7-187所示。

图7-187 设备仿真分析

 

1. 仿真网络预配置

(0)     进入[分析>仿真分析>设备仿真分析>构建仿真网络>整网构建>仿真网络预配置>仿真主机管理]页面,增加仿真主机,如7-188所示。

图7-188 增加仿真主机

 

表7-8 仿真主机参数说明

参数

说明

名称

必填,用户自定义名称,最长30个字符,仅支持字母、数字、小数点(.)、连字符(-)和下划线(_)

IP地址

必填,仿真主机的IP地址。

用户名

必填,仿真主机的用户名,与DTN主机部署时相同。

密码

必填,仿真主机的密码,与DTN主机部署时相同。

 

(1)     进入[分析>仿真分析>设备仿真分析>构建仿真网络>整网构建>仿真网络预配置>仿真镜像管理]页面,单机<上传镜像>,选择合适的镜像上传,如7-189所示。

图7-189 上传仿真镜像

 

(2)     进入[分析>仿真分析>设备仿真分析>构建仿真网络>整网构建>仿真网络预配置>参数设置]页面,如7-190所示。

图7-190 参数设置

 

表7-9 仿真网络预配置参数说明

参数

说明

UDP Port起始值和结束值

用于设定仿真网络通信使用的UDP端口号。缺省范围为1000015000。虚拟设备之间每条互通连接占用两个端口。

 

(3)     设备仿真构建结果展示,如7-191所示。

图7-191 仿真网络构建结果

 

2. 新建仿真分析

(1)     进入[分析>仿真分析>设备仿真分析>新建仿真]页面,单击<开始同步>按钮,同步数据,如7-192所示。同步完成后,单击<下一步>按钮。

图7-192 同步数据

 

(2)     进入[分析>仿真分析>设备仿真分析>新建仿真]页面,仿真定义,如7-193所示,以设备PE1PE2之间的流量为例,按需新增流量、设置故障点,单击<下一步>按钮。

图7-193 新增流量

 

图7-194 设置故障点

 

表7-10 新增流量参数说明

参数

说明

流量名称

填写新增的流量名称,注意不可重复填入相同的流量名称,流量名称相同时,重复的流量解析会失败。

源节点

新增流量的起始节点名称。请正确填写数据同步后,topo图上的节点名称。

目的节点

新增流量的目的节点名称。请正确填写数据同步后,topo图上的节点名称。

IP

新增流量的起始IP。设备上可以查到的IP地址。

目的IP

新增流量的起始IP。设备上可以查到的IP地址。

源端口

应用使用的通信端口,范围为0-65535

目的端口

应用使用的通信端口,范围为0-65535

协议

新增流量采用的通信协议。

流量

新增流量的带宽大小。

流量类型

新增流量的类型。有v4_flowtunnel_flowv6_flowpolicy_flow四种。

 

(3)     进入[分析>仿真分析>设备仿真分析>新建仿真]页面,仿真参数设置,如7-195所示,参数配置完成后,单击<下一步>按钮。

图7-195 仿真分参数设置

 

表7-11 仿真参数说明

参数

说明

流量仿真

仿真业务流量变化如业务流量增加后网络的整体变化及影响。

故障仿真

仿真相同流量下节点或链路故障前后的网络整体变化及影响。

负载

设备物理接口当前负载的业务流量。

导入的业务流量

通过Flow模板导入或页面新增的业务流量。

Tunnel负载自动创建的流量

将同步的Tunnel接口负载数据自动转换成流量。

SRv6 Policy候选路径自动创建的流量

将同步的SRv6 Policy接口负载数据自动转换成流量。

Tunnel路径优化

使用此功能可对隧道路径调度进行全局优化。

 

(4)     进入[分析>仿真分析>设备仿真分析>新建仿真]页面,开始仿真,单击<开始仿真>按钮,如7-196所示。

图7-196 开始仿真

 

(5)     设备仿真新建结果展示,可以看到仿真周期的不同时间点,导入的流量在遇到关键链路故障时的选路情况,如7-197所示。

图7-197 设备仿真新建结果

 

7.19.2  模拟仿真分析

(1)     进入[分析>仿真分析>模拟仿真分析]页面,如7-198所示。

图7-198 模拟仿真分析

 

(2)     进入[分析>仿真分析>模拟仿真分析>新建仿真]页面,单击<开始同步>按钮,同步数据,如7-199所示。同步完成后,单击<下一步>按钮。

图7-199 同步数据

 

(3)     进入[分析>仿真分析>模拟仿真分析>新建仿真]页面,仿真定义,如7-2007-201所示。以设备PE1PE2之间的流量为例,按需新增流量、设置故障点,单击<下一步>按钮。

图7-200 新增流量

 

图7-201 设置故障点

 

表7-12 新增流量参数说明

参数

说明

流量名称

填写新增的流量名称,注意不可重复填入相同的流量名称,流量名称相同时,重复的流量解析会失败。

源节点

新增流量的起始节点名称。请正确填写数据同步后,topo图上的节点名称。

目的节点

新增流量的目的节点名称。请正确填写数据同步后,topo图上的节点名称。

IP

新增流量的起始IP。设备上可以查到的IP地址。

目的IP

新增流量的起始IP。设备上可以查到的IP地址。

源端口

应用使用的通信端口,范围为0-65535

目的端口

应用使用的通信端口,范围为0-65535

协议

新增流量采用的通信协议。

流量

新增流量的带宽大小。

流量类型

新增流量的类型。有v4_flowtunnel_flowv6_flowpolicy_flow四种。

 

(4)     进入[分析>仿真分析>模拟仿真分析>新建仿真]页面,仿真参数设置,如7-202所示。参数配置完成后,单击<下一步>按钮。

图7-202 仿真参数设置

 

表7-13 仿真参数说明

参数

说明

流量仿真

仿真业务流量变化如业务流量增加后网络的整体变化及影响。

故障仿真

仿真相同流量下节点或链路故障前后的网络整体变化及影响。

负载

设备物理接口当前负载的业务流量。

导入的业务流量

通过Flow模板导入或页面新增的业务流量。

Tunnel负载自动创建的流量

将同步的Tunnel接口负载数据自动转换成流量。

SRv6 Policy候选路径自动创建的流量

将同步的SRv6 Policy接口负载数据自动转换成流量。

Tunnel路径优化

使用此功能可对隧道路径调度进行全局优化。

 

(5)     进入[分析>仿真分析>模拟仿真分析>新建仿真]页面,开始仿真,单击<开始仿真>按钮,如7-203所示。

图7-203 开始仿真

 

(6)     模拟仿真新建结果展示,可以看到仿真周期的不同时间点,导入的流量在遇到关键链路故障时的选路情况,如7-204所示。

图7-204 模拟仿真新建结果

 

 

7.20  区域地图流量质量分析

区域地图流量质量分析,可以基于省、市、县/区维度查看到区域的流量排名、发送流量以及质量数据情况。质量数据情况是采用NQA TWAMP-light在需要进行检测的指定的源IP和目的IP两端进行路径时延、抖动、丢包探测。

注意

AD-WAN承载网方案支持本功能。

 

7.20.1  解析任务配置

TwampStream解析任务

(1)     进入[分析>分析选项>任务管理]页面,启动TwampStream解析任务,如7-205所示。

图7-205 TwampStream解析任务

 

(2)     采用gRPC采集,需要设置采集周期7-206所示

图7-206 调整gRPC采集周期

 

2. IfKpiAnalysis解析任务

进入[分析>分析选项>任务管理]页面,启动IfKpiAnalysis解析任务,如7-207所示。

图7-207 IfKpiAnalysis解析任务

 

7.20.2  结果展示

进入首页,右上角单击编辑,搜索“性能地图”,添加到首页大屏。再刷新页面,即可在首页看到区域地图。

 


8 分析组件故障处理

本章节介绍SeerAnalyzer常见故障的诊断及处理措施。

8.1  K8S/容器状态异常】POD运行状态CrashLoopBackOff

8.1.1  故障描述

通过[系统>系统维护>容器化平台>平台概览]查看平台概览页面。

图8-1 平台概览页面

 

通过平台概览页面可以查看当前产品、节点的状态,以及POD的工作负载TOP排名,若节点状态(例如内存利用率、磁盘利用率异常)出现异常,会在节点状态中标红显示;若POD健康度不为100,或者POD重启次数过大,会在工作负载状态TOP5和应用统计图中显示出来。

通过[系统>系统维护>容器化平台>平台资源]选择SeerAnalyzer产品,查看POD状态。

图8-2 平台资源页面

 

查看列表中POD的状态,正常运行中的POD若出现CrashLoopBackOff状态,则表示对应POD的状态异常。也可通过远程登录服务器,使用kubectl get pod -n sa命令查看namespacesaPOD,状态判断同上。

8.1.2  故障分析与恢复

·     K8S会自动重启POD,短暂等待POD能否恢复。

·     也可以通过以下命令手动删除POD,使其重启,短暂等待POD能否恢复。

kubectl delete pod pod-name -n sa

·     如果通过以上步骤也不能恢复,请执行以下命令收集POD日志和信息,联系技术支持工程师。

kubectl logs pod-name -n sa

kubectl describe pod pod-name -n sa

8.2  【断电重启异常】异常断电导致无法创建存储卷或删除存储卷等操作

8.2.1  故障描述

异常断电恢复后,发现后续无法创建或删除GlusterFS存储卷。

(1)     通过kubectl get pod -A  |grep glusterfs查询GlusterFS相关的POD名称及其所在的命名空间。

图8-3 查询GlusterFS相关的POD

 

(2)     通过以下步骤依次进入所有的GlusterFSPOD来确定是否存在异常。

a.     进入容器(kubectl exec -it  -n [命名空间] [POD名称] bash)。例如:kubectl exec -it -n glusterfs-example glusterfs-x7h4g bash

b.     进入容器后,执行ip addr命令查看该容器的IP,如下图节点名称为m1IP2000:8::130

图8-4 进入GlusterFS容器查看IP

 

c.     在容器内再执行gluster peer status命令查看peer状态,如发现hostname为当前节点名或IPpeer则表示出现了异常。如下图发现m1的节点出现了hostnamem1peer

图8-5 查询GlusterFS异常

 

8.2.2  故障分析与恢复

(1)     通过kubectl get pod -A  |grep glusterfs查询GlusterFS相关的POD名称及其所在的命名空间。

图8-6 查询GlusterFS相关的POD

 

(2)     通过kubectl exec命令进入异常的GlusterFSPODkubectl exec -it  -n [命名空间] [POD名称] bash例如:kubectl exec -it -n glusterfs-example glusterfs-x7h4g bash

(3)     进入容器后,执行ip addr命令查看该容器的节点名和IP,如下图节点名称为m1IP2000:8::130

图8-7 进入GlusterFS容器查看IP

 

(4)     GlusterFS容器中通过gluster peer status查看peer节点,hostname为当前节点名或IPpeer为异常peer记录与其对应的UUID。例如图中hostnamem1peer为异常peer

图8-8 查看GlusterFS节点UUID

 

(5)     在该容器中,通过rm –rf 命令在/var/lib/glusterd/peers/删除与该UUID同名的目录。

图8-9 删除目录

 

(6)     在该容器中,通过vi命令修改/var/lib/glusterd/glusterd.info中的uuid的值为步骤(4)中记录的UUID

vi /var/lib/glusterd/glusterd.info

图8-10 修改UUID

 

(7)     在该容器中通过systemctl restart glusterd 命令重启GlusterFS服务。

(8)     重启后,在容器中通过gluster peer status命令查看是否有出现如下情况,如果出现就继续下一步操作,反之如果还是显示问题现象,请重新确认上述步骤1-7是否修改正确,若修改有误,请重新修改。

图8-11 查看GlusterFS节点peer

 

(9)     进入使用GlusterFS存储的容器确认,数据是否正常写入。

(10)     如果上述操作完成后故障仍无法排除,请联系技术支持工程师。

8.3  【断电重启异常】断电重启后Kafka一直重启不可用问题

8.3.1  故障描述

(1)     Kafka在断电、POD被删除、Matrix切主、网口被拔等一系列极端场景操作后,无法正常使用,不能生产和消费数据。

(2)     进入任一节点后台,执行命令kubectl get po -n sa | grep itoa-kafka-stateful观察Kafka POD重启次数,发现重启次数大于0,且每隔1300s不断增加。

图8-12 观察KafkaPOD是否一直重启

 

8.3.2  故障分析与恢复

(1)     增大Kafka恢复时间阈值。

a.     进入任一节点后台,执行命令du -sh /sa_data/kafka_data

图8-13 查看Kafka数据量

 

b.     预估时间阈值:取(数据量*12)和1000的较大值,上例中数据量为5.3G,所以5.3*12 = 63.6s,那么阈值为max(63.6, 1000) = 1000s,如果现实中数据量为200G,那么阈值为max(200*12, 1000) = 2400s

c.     执行命令kubectl edit statefulset itoa-kafka-statefulset -n sa,进入vi模式,修改“initialDelaySeconds: 1000”为上面计算得到的阈值。

图8-14 修改Kafka恢复时间阈值

 

d.     观察故障是否消除,若仍未消除,修改时间阈值为10000,重复上述操作。

(2)     如果故障仍然无法消除,进行如下步骤重建Kafka

a.     SeerAnalyzer页面,进入[分析选项>任务管理]页面停止所有的解析任务。

图8-15 停止解析任务

 

b.     进入任一Matser节点,执行命令kubectl scale statefulset itoa-kafka-statefulset -n sa --replicas=0 && kubectl delete -f /opt/matrix/app/install/metadata/SA/system/itoa-job-initkafka/k8s-resources/itoa-job-initkafka.yaml

c.     执行命令kubectl -n sa exec -ti $(kubectl get po -nsa | grep zookeeper-dp1 |awk '{print $1}') bash,进入POD内执行zkCli.sh

图8-16 进入ZookeeperPOD并执行命令

 

d.     复制下面命令,执行以下命令:

rmr /brokers

rmr /cluster

rmr /admin

rmr /isr_change_notification

rmr /con

rmr /consumers

rmr /config

delete /controller_epoch

e.     连续按两次“CTRL + D”退出POD交互界面。

f.     执行kubectl -n sa cp /opt/matrix/app/install/metadata/SA/scripts/recovery-tools/kafka/kafka2vertica-rebuild.sh $(kubectl get po -n sa | grep kafka2ver | awk '{print $1}'):/opt/kafka2vertica-rebuild.sh

g.     执行 kubectl -n sa exec -ti $(kubectl get po -nsa | grep kafka2ver |awk '{print $1}') bash进入POD交互环境。

h.     执行bash kafka2vertica-rebuild.sh,等待shell脚本执行完毕,中间报错忽略。

i.     退出pod交互界面。

j.     分别登录所有节点,执行rm -rf /sa_data/kafka_data/*

k.     登录Master节点执行kubectl scale statefulset itoa-kafka-statefulset -nsa --replicas=<SA节点数>

l.     等待所有POD状态均为Running后执行kubectl create -f /opt/matrix/app/install/metadata/SA/system/itoa-job-initkafka/k8s-resources/itoa-job-initkafka.yaml

图8-17 查看KafkaPOD状态是否为Running

 

m.     观察itoa-jon-initkafkaPOD直至状态变为Completed,执行命令watch 'kubectl get po -n sa | grep initkafka'

图8-18 观察itoa-jon-initkafkaPOD

 

n.     执行kubectl -n sa delete po $(kubectl get po -n sa | grep kafka2vertica | awk '{print $1}')

o.     SeerAnalyzer页面,先进入[分析选项<任务管理]页面开启所有解析任务,再进入[分析选项<采集设置]页面开启所有采集任务。

(3)     如果上述操作完成后故障仍无法排除,请联系技术支持工程师。

8.4  【断电重启异常】异常断电后vertica文件损坏,无法启动

8.4.1  故障描述

分析组件大量页面显示“无数据”。

(1)     登录任一节点后台,执行kubectl get pod -n sa | grep vertica,发现verticalaunch的两个POD状态为CrashLoopBackoff,且不断重启。

 

(2)     执行以下命令,查看vertica数据库状态,发现vertica数据的库的状态为down

# su dbadmin

$ admintools -t view_cluster

(3)     执行以下命令,尝试启动vertica,但是仍然失败。

$ admintools -t start_db -d lion -p dbadmin@h3c

(4)     进入admintools页面,通过下述步骤也无法启动vertica

$ admintools

 

 

8.4.2  故障分析与恢复

该故障表现为vertica数据不能启动,通常原因是异常断电后,vertica出现文件损坏无法启动。执行以下步骤,对vertica进行恢复。

(1)     root用户身份登录每一台节点,停止每一台节点的vertica节点检测脚本。

# sed -i 's/^[^#].*check_ConsumerState.sh*/#&/g'  /etc/crontab

# sed -i 's/^[^#].*check_NodesStateAndLocks*/#&/g' /etc/crontab

(2)     在其中一个vertica节点执行UNSAFE 数据库启动。命令如下:

# su dbadmin

$ admintools -t start_db -d lion -p dbadmin@h3c -U

 

(3)     连接vertica数据库操作,执行恢复动作。

$ admintools -t connect_db -d lion -p dbadmin@h3c

 

lion=> SELECT do_tm_task('abortrecovery', '');

 

(4)     shutdown vertica数据库,并\q 退出数据库模式。

lion=> select shutdown('true');

 

 

(5)     normal模式启动vertica数据库

$ admintools -t start_db -d lion

 

(6)     使用root用户恢复每一台vertica节点检测脚本。

# sed -i '/^#.*check_ConsumerState.sh/s/^#//g' /etc/crontab

# sed -i '/^#.*/check_NodesStateAndLocks.sh/s/^#//g' /etc/crontab

(7)     查看vertica的状态,若为UP,则表示vertica已启动。

# su dbadmin

$ admintools -t view_cluster

 

(8)     如果上述操作完成后数据库仍无法启动,请联系技术支持工程师。

8.5  【数据库异常】应用分析页面及子页面无数据

8.5.1  故障描述

kafka2vertica消费任务连续运行多天后,消费中断,分析组件“应用分析”页面及子页面均显示无数据。通过SSH连接分析组件后台可以发现vertica-launch的相关pod在反复重启,在分析组件后台上手动启动消费任务,操作步骤如下,其中SA_HOST_IP需要替换为安装了分析组件的服务器IP地址:

cd /tmp

cat >kafka2vertica.conf<<EOF

# The configuraton options for the kafka2vertica scheduler.

username=dbadmin

password=dbadmin@h3c

dbhost=SA_HOST_IP

dbport=5433

config-schema=kafka2vertica

EOF

/opt/vertica/packages/kafka/bin/vkconfig launch --conf kafka2vertica.conf

待上述命令执行完后,查看日志/opt/vertica/log/vkafka-sched.log,日志中报错No projections eligible to answer query,相关日志内容如下:

com.vertica.solutions.kafka.scheduler.config.ConfigurationRefresher::Main  [INFO] Stopping Configuration Refresher

2021-01-25 19:20:17.603 com.vertica.solutions.kafka.util.ConnectionUtil::Main  [ERROR] Releasing lock on leadership and reapplying: Caught unrecoverable exception.

java.sql.SQLSyntaxErrorException: [Vertica][VJDBC](3586) ERROR: Insufficient projections to answer query

  [Vertica][VJDBC]Detail: No projections eligible to answer query

        at com.vertica.util.ServerErrorData.buildException(Unknown Source)

        at com.vertica.dataengine.VResultSet.fetchChunk(Unknown Source)

        at com.vertica.dataengine.VResultSet.initialize(Unknown Source)

        at com.vertica.dataengine.VQueryExecutor.readExecuteResponse(Unknown Source)

        at com.vertica.dataengine.VQueryExecutor.handleExecuteResponse(Unknown Source)

        at com.vertica.dataengine.VQueryExecutor.execute(Unknown Source)

        at com.vertica.jdbc.common.SPreparedStatement.executeWithParams(Unknown Source)

        at com.vertica.jdbc.common.SPreparedStatement.executeQuery(Unknown Source)

        at com.vertica.solutions.kafka.scheduler.FrameScheduler.computeBatches(FrameScheduler.java:136)

        at com.vertica.solutions.kafka.scheduler.ConcurrentScheduler.refillBatches(ConcurrentScheduler.java:76)

        at com.vertica.solutions.kafka.scheduler.StreamCoordinator.run_with_leader(StreamCoordinator.java:165)

        at com.vertica.solutions.kafka.scheduler.StreamCoordinator.run(StreamCoordinator.java:237)

        at com.vertica.solutions.kafka.Launcher.run(Launcher.java:213)

        at com.vertica.solutions.kafka.Launcher.main(Launcher.java:266)

Caused by: com.vertica.support.exceptions.SyntaxErrorException: [Vertica][VJDBC](3586) ERROR: Insufficient projections to answer query

  [Vertica][VJDBC]Detail: No projections eligible to answer query

        ... 14 more

8.5.2  故障分析与恢复

(1)     执行ANALYZE_STATISTICS操作,SA_HOST_IP需要替换为安装了分析组件的服务器IP地址。命令如下:

/opt/vertica/bin/vsql -h SA_HOST_IP -d lion -w dbadmin@h3c -U dbadmin -c "SELECT ANALYZE_STATISTICS('kafka2vertica.stream_microbatch_history');"

 

(2)     执行refresh操作,SA_HOST_IP需要替换为安装了分析组件的服务器IP地址。

/opt/vertica/bin/vsql -h SA_HOST_IP -d lion -w dbadmin@h3c -U dbadmin -c "SELECT REFRESH('kafka2vertica.stream_microbatch_history');"

 

(3)     执行完上述步骤,等待5分钟后,在分析组件后台查看vertica-launchPod是否正常,若Pod不再反复重启,同时在web页面查看分析组件“应用分析”页面及子页面数据显示正常,则问题已排除。

(4)     如果上述操作完成后故障仍无法排除,请联系技术支持工程师。

 


9 分析组件巡检指导

9.1  巡检业务介绍

本章节将SeerAnalyzer分析组件WAN场景巡检业务进行系统介绍。完整的巡检需要检查分析组件前端,分析组件后台,网络设备。

9.2  分析组件前端页面巡检指导

9.2.1  健康分析功能

1. 健康概览功能

拓扑概览

拓扑概览日常巡检重点关注三个方面:整网设备拓扑链路是否展示正确(环路不展示)、拓扑图中的链路流量是否正常(灰色代表流量为0,红色或者黄色代表流量超过一定阈值,红色虚线代表链路down),拓扑图中的设备状态是否正常(展示健康度、设备CPU内存风扇信息展示正常)。

图9-1 整网拓扑

 

展示整网的物理拓扑信息,包括设备和链路,其中链路通过netconf采集的LLDP信息生成。

 

图9-2 拓扑链路流量信息

 

展示设备的链路信息,包括链路端口链路带宽利用率吞吐量丢包率错包率信息,其中“时延”和“抖动”是NQA信息。

图9-3 拓扑设备状态信息

 

展示设备的基础信息(IP、名称、型号、类型等)和状态信息(健康度、温度、电源、风扇)

区域概览

区域日常巡检重点关注以下方面:本地区域的网络健康度状态是否异常、全部区域下的各网络健康度状态是否异常,全部区域下的问题列表是否有重大异常事件

图9-4 区域概览

 

展示本分析组件中的所有地理区域的设备健康度分布,包括区域下各设备类型的健康度范围及设备数量。

2. 网络分析功能

网络健康度

网络健康状态巡检关注网络健康曲线输出是否正常,网络健康度曲线中在线设备数(好、一般、差),离线设备数与网络健康柱状图统计分类统计数量是否一致。

图9-5 网络健康度趋势与网络健康统计

 

通过单击下图设备列表的设备名称,也可以下钻到设备详情中:

图9-6 网络设备列表

 

关注详情页设备健康度趋势图是否正常,悬浮每时刻设备详情信息;是否正常展示设备相关的问题列表;是否正确显示该设备在网络中的拓扑图;

图9-7 网络设备详情页面(1

 

关注系统资源使用趋势图,是否与实际情况一致(设备健康度悬浮显示的资源使用情况);

图9-8 网络设备详情页(2

 

关注该设备端口列表信息及趋势图是否正常显示;

图9-9 设备详情页(3

 

关注各子页签设备、单板、芯片、接口、光模块、链路等页面中指标分布和峰值、谷值、均值、最新值的top矩形图显示:

图9-10 指标矩形图

 

关注子页签设备、单板、芯片、接口、光模块、链路等中指标列表及其展开指标趋势图显示:

图9-11 指标趋势列表

 

链路流量

链路流量展示网络链路在指定时间段的链路利用情况。根据历史流量利用率、速率预测该条链路在未来一段时间的流量利用率与速率,在详情页进行展示。在设置页面可设置低利用率告警阈值、高利用率告警阈值、AI预测时长。

链路详情可展示速率和利用率的变化趋势图。开启AI预测后预测的趋势图在0点,6点,12点,18点的10分会刷新一次,因此可能刚勾选时暂时看不到数据。

图9-12 物理链路

 

图9-13 链路详情

 

变更分析

变更分析巡检主要关注变更设备列表在设备配置或表项数据发生变更时是否有数据;设备展开后所展示的维恩图(圆圈叠加图)所展示的数据是否与变更对比详情一致;单击变更历史趋势柱状图变更设备列表展示是否正确;在所选时间范围内变更设备占比、Top10变更设备和Top变更项正确展示。

图9-14 网络变更分析页面

 

展开变更设备列表的某台设备,可以看到该设备各数据对比的维恩图(圆圈叠加图),其中左边的数据表示删除的行数,右边的数字表示增加的行数,中间的数字表示相同的行数,需要特别注意的是,修改操作相当于先删除再增加:

图9-15 变更设备维恩图

 

单击某个数据项的维恩图可以查看变更对比详情:

图9-16 设备变更详情

 

单击变更历史趋势柱状图,变更设备列表会展示相应粒度的对比结果(如果选择的时间范围小于等于2天,那么柱状图的粒度是5分钟;如果大于2天,那么柱状图的粒度是1小时):

图9-17 变更历史趋势与变更设备列表联动

 

图9-18 变更概览

 

网络业务分析

网络路径检测默认展示最近一个小时的网络路径信息,以列表形式进行展示,可以选择时间区间进行展示。单击某一个路径后的操作,可以展示对应的网络路径具体情况

图9-19 网络路径检测展示

 

图9-20 网络路径下钻展示

 

展示对应的路径时延、抖动、丢包等质量信息趋势变化。

路由监控功能对设备上已配置的路由协议最近一次更新的路由邻居信息进行展示。

 

3. 链路分析

链路可用度

仅适用承载场景

链路可用度展示网络链路在指定时间段的可用度情况。采集器采集设备端的NQA报文,从中获取时延、抖动、丢包率等指标,在设置页面选择不同的计算可用度基准,计算出来的可用度及相关指标在列表页和详情页进行展示。

图9-21 链路可用度

 

图9-22 链路可用度详情

 

4. 流分析

检查接口流入流量和接口流出流量是否正常。

图9-23 接口流入流量和接口流出流量

 

接口列表里面选择设备、接口查看是否显示。

图9-24 接口列表

 

单击操作按钮进入接口详情,看仪表盘是否都有数据(除了应用流量Top5仪表盘中的流出流量)。

图9-25 接口详情

 

5. 服务质量分析

随流分析

iFIT日常巡检重点关注监控流时延、丢包、抖动统计信息。

图9-26 iFIT流分析

 

6. 健康报告

健康报告展示当前用户已创建的全网健康报告任务列表,列表展示了任务的名称、状态、收件人邮箱、任务添加时间、下次任务执行时间、周期类型。

图9-27 健康报告

 

以列表形式显示所有创建的全网健康度报告生成任务,主要包含任务发送邮箱,执行周期等。

任务分为运行中、暂停、过期 三种状态,可以进行任务操作。

9.2.2  诊断分析功能

1. 异常分析

异常分析页面,从设备、网络、协议维度对各类故障进行统计:

图9-28 异常分析

 

异常分析首页可查看故障所属类别的统计和不通严重级别故障发生的趋势。

图9-29 设备类故障

 

设备类页签下可以查看更具体详细分类的故障产生的数量以及故障详情。

图9-30 网络类故障

 

网络类同理。

图9-31 通知类故障详情

 

通知类的故障case在当前问题列表故障单击展开按钮,在详情中可以查看故障的根因分析,详细过程以及影响范围分析。

图9-32 闭环类故障详情

 

闭环类的故障case在当前问题列表故障单击展开按钮,除了根因、详情和影响范围分析,还可以在处理建议处查看能够暂时解决该问题的方式,并根据建议自行选择修复方式。

图9-33 历史问题列表

 

当问题列表中,当问题已解决或认为可以不再关注时,可以在页面上单击处理将其移入历史问题列表中。

2. 事件分析

重点关注系统故障、接口故障、可靠性、链路异常等,并对子类型故障进行查看:

图9-34 事件分析

 

从影响分布中可展开受影响设备,查看故障详情:

图9-35 故障详情

 

9.2.3  预测分析功能

1. 智能预测

智能预测使用统计学习 和机器学习的方法,对时序数据进行规律分析,拟合并预测数据的未来走势,生成基线和预测结果以及异常点的定位。

通过设备类型、IP、名称等确定要查看的设备,单击查看详情。

图9-36 智能预测

 

通过KPI选择查看的预测指标,可参考预测值及时提前发现网络风险。

图9-37 设备详情

 

2. AI任务管理

AI任务管理是任务的运维界面,支持用户对任务的启动、停止、查看,还支持根据任务类型、任务状态统计任务数以及批量启动、批量停止。

图9-38 设备详情

 

9.2.4  报表功能

1. 报表模板

报表列表模板展示当前操作员可操作的所有报表模板。

图9-39 报表模板列表

 

2. 报表任务

可以基于报表模板按照一定的频率统计数据并自动生成周期性的报表文件。

图9-40 周期报表列表

 

9.2.5  分析选项状态检查

1. 数据采集状态检查

进入[分析>分析选项>采集管理>统一采集>采集任务管理]页面,查看数据采集状态。

图9-41 采集管理

 

2. 任务管理状态检查

进入[分析>分析选项>任务管理]页面,查看解析任务状态。

图9-42 解析任务状态

 

9.3  分析组件后台日常巡检指导

后台部分关键进程、服务在不同部署方式有不同操作,请注意区分场景。

9.3.1  分析组件关键任务状态检查

后台服务很多服务Pod需要关注其状态,分析组件重点关注sa命名空间下Pod运行状态;执行kubectl get pod -n <namespace>命令,查看对应输出第三列是Running或者Completed则表示正常。

图9-43 查看POD

 

需要重点关注的还有:重启次数(第四列)、运行时长(第五列)等信息。

分析组件后台服务需要重点关注的Podkafkazookeepermkvdbstolonvertica等,查看kafka状态,举例如图:

图9-44 查看重点POD

 

9.4  分析组件巡检报告

对分析组件执行完巡检后,可参考如下表格给出正式的巡检报告。

表9-1 分析组件前端页面巡检报告

检查内容

检查方法

检查结果

说明

健康分析功能

通过健康分析页面查看功能是否正常

□正常

□不正常

 

诊断分析功能

通过诊断分析页面查看功能是否正常

□正常

□不正常

 

流分析功能

通过流分析页面查看功能是否正常

□正常

□不正常

 

预测分析功能

通过预测分析页面查看功能是否正常

□正常

□不正常

 

报表功能

通过报表页面查看功能是否正常

□正常

□不正常

 

分析选项

通过分析选项页面查看功能是否正常

□正常

□不正常

 

 

表9-2 分析组件后台日常巡检报告

检查内容

检查方法

检查结果

说明

主机网卡聚合状态

登录控制组件后台,查看网卡bond情况

□正常

□不正常

 

命名空间下服务状态检查

登录分析组件的后台,查看各命名空间下Pod状态是否正常

□正常

□不正常

 

 

9.5  网络设备日常巡检指导

9.5.1  网络设备巡检指导

1. 查看设备配置信息

登录采集网络设备,使用display this命令,查看设备gRPCNETCONFSNMP等常用采集是否已开启且配置正确。

图9-45 设备详情-gRPC

 

图9-46 设备详情-NETCONF

 

图9-47 设备详情-SNMP

 

2. 查看设备用户连接数

设备连接数在出厂都有一定的限制,用户登录连接过多,可能造成分析组件登录设备异常,从而影响设备采集。日常巡检中可对必要的网络设备使用命令display usersdisplay tcp检查设备连接是否异常。

图9-48 登录用户

 

图9-49 TCP连接

 

9.5.2  网络设备巡检报告

对网络设备执行完巡检后,可参考如下表格给出正式的巡检报告。

图9-50 网络设备巡检报告

检查内容

检查方法

检查结果

说明

查看设备配置信息

参考设备命令手册(display this),查看NETCONFgRPCSNMP等配置是否正常

□正常

□不正常

 

设备用户连接数

参考设备命令手册,display usersdisplay tcp,查看设备连接数是否处于正常范围

□正常

□不正常

 

 

9.6  故障隐患处理

对于用户现场出现的故障隐患,巡检人员须在H3C智能管理产品支持部工程师的授权下进行处理。

H3C技术支援的联系方式为:

用户支持邮箱:[email protected]

技术支持热线电话:400-810-0504(手机、固话均可拨打)

网址:http://www.h3c.com

 

新华三官网
联系我们