• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

12-AD-DC 7.1 智能分析业务配置指导

手册下载

12-AD-DC 7.1 智能分析业务配置指导-整本手册.pdf 87 | AD-NET专用+普通用户(校验合同号)+H3C员工   (8.30 MB)

  • 发布时间:2024/10/30 3:15:52
  • 浏览量:
  • 下载量:

AD-DC 7.1 智能分析业务

配置指导

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W100-20240925

 

Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 概述·· 1-1

1.1 术语对照表·· 1-1

1.2 网络介绍·· 1-2

1.3 组网规划·· 1-3

2 基础网络配置·· 2-1

2.1 配置流程·· 2-1

2.2 组网规划·· 2-1

2.3 配置步骤·· 2-1

2.3.1 配置网络设备·· 2-1

2.3.2 添加网络资产·· 2-8

2.3.3 配置协议模板·· 2-12

2.3.4 设置协议·· 2-16

2.3.5 查看南向采集IP地址·· 2-19

2.3.6 采集器接入业务网络·· 2-20

3 网络健康度·· 3-1

3.1 配置流程·· 3-1

3.2 组网规划·· 3-1

3.3 配置步骤·· 3-1

3.3.1 基础网络配置·· 3-1

3.3.2 开启分析组件解析任务·· 3-1

3.3.3 结果展示·· 3-4

3.4 注意事项·· 3-6

4 健康概览·· 4-1

4.1 配置流程·· 4-1

4.2 组网规划·· 4-1

4.3 配置步骤·· 4-1

4.3.1 基础网络配置·· 4-1

4.3.2 开启分析组件解析任务·· 4-1

4.3.3 获取拓扑·· 4-1

4.3.4 流量热图·· 4-2

4.3.5 结果展示·· 4-3

4.4 注意事项·· 4-5

5 丢包分析·· 5-1

5.1 配置流程·· 5-1

5.2 组网规划·· 5-1

5.3 配置步骤·· 5-2

5.3.1 基础网络配置·· 5-2

5.3.2 设备侧配置·· 5-2

5.3.3 应用配置·· 5-3

5.3.4 开启分析组件解析任务·· 5-4

5.3.5 结果展示·· 5-4

5.4 注意事项·· 5-5

6 变更分析·· 6-1

6.1 配置流程·· 6-1

6.2 组网规划·· 6-1

6.3 配置步骤·· 6-1

6.3.1 基础网络配置·· 6-1

6.3.2 开启分析组件解析任务·· 6-1

6.3.3 结果展示·· 6-1

6.3.4 注意事项·· 6-3

7 异常分析·· 7-1

7.1 配置流程·· 7-1

7.2 组网规划·· 7-1

7.3 配置步骤·· 7-1

7.3.1 配置网络设备·· 7-1

7.3.2 资产管理·· 7-1

7.3.3 开启分析组件解析任务·· 7-2

7.3.4 结果展示·· 7-2

7.4 注意事项·· 7-4

8 交换机访问次数记录·· 8-1

8.1 配置流程·· 8-1

8.2 组网规划·· 8-1

8.3 配置步骤·· 8-1

8.3.1 配置网络设备·· 8-1

8.3.2 资产管理·· 8-1

8.3.3 添加仪表·· 8-2

8.3.4 结果展示·· 8-2

8.4 注意事项·· 8-3

9 数据面验证·· 9-1

9.1 配置流程·· 9-1

9.2 组网规划·· 9-1

9.3 配置步骤·· 9-1

9.3.1 配置网络设备·· 9-1

9.3.2 资产管理·· 9-1

9.3.3 开启分析组件解析任务·· 9-1

9.3.4 验证实例相关配置·· 9-2

9.3.5 结果展示·· 9-3

9.4 注意事项·· 9-4

10 TCP流分析·· 10-1

10.1 配置流程·· 10-1

10.2 组网规划·· 10-1

10.3 配置步骤·· 10-1

10.3.1 设备侧配置·· 10-1

10.3.2 采集器配置·· 10-7

10.3.3 流分析页面配置·· 10-11

10.3.4 开启解析任务·· 10-12

10.3.5 结果展示·· 10-12

10.4 注意事项·· 10-14

11 不合规分析·· 11-1

11.1 配置流程·· 11-1

11.2 组网规划·· 11-1

11.3 配置步骤·· 11-1

11.3.1 设备侧配置·· 11-1

11.3.2 采集器配置·· 11-1

11.3.3 流分析页面配置·· 11-1

11.3.4 配置解析任务·· 11-3

11.3.5 结果展示·· 11-4

11.4 注意事项·· 11-6

12 应用健康度·· 12-1

12.1 配置流程·· 12-1

12.2 组网规划·· 12-1

12.3 配置步骤·· 12-1

12.3.1 设备侧配置·· 12-1

12.3.2 采集器配置·· 12-1

12.3.3 应用健康度页面配置·· 12-1

12.3.4 开启解析任务·· 12-1

12.3.5 结果展示·· 12-1

12.4 注意事项·· 12-2

13 事件分析·· 13-1

13.1 配置流程·· 13-1

13.1.1 网络事件流程·· 13-1

13.2 组网规划·· 13-1

13.3 配置步骤·· 13-1

13.3.1 网络事件配置·· 13-1

13.3.2 结果展示·· 13-1

13.4 注意事项·· 13-2

14 UDP流分析·· 14-1

14.1 配置流程·· 14-1

14.2 组网规划·· 14-1

14.3 配置步骤·· 14-1

14.3.1 设备侧配置·· 14-1

14.3.2 采集器配置·· 14-1

14.3.3 流分析页面配置·· 14-1

14.3.4 配置解析任务·· 14-1

14.3.5 结果展示·· 14-2

14.4 注意事项·· 14-3

15 INT流分析·· 15-1

15.1 配置流程·· 15-1

15.2 组网规划·· 15-1

15.3 配置步骤·· 15-1

15.3.1 设备侧INT配置·· 15-1

15.3.2 采集器配置·· 15-6

15.3.3 应用配置·· 15-6

15.3.4 配置解析任务·· 15-6

15.3.5 结果展示·· 15-6

15.4 注意事项·· 15-8

16 智能预测·· 16-1

16.1 配置流程·· 16-1

16.2 组网规划·· 16-1

16.3 配置步骤·· 16-1

16.3.1 基础网络配置·· 16-1

16.3.2 开启分析组件解析任务·· 16-1

16.3.3 开启AI预测·· 16-1

16.3.4 结果展示·· 16-2

16.4 注意事项·· 16-2

17 健康报告·· 17-1

17.1 配置流程·· 17-1

17.2 组网规划·· 17-1

17.3 配置步骤·· 17-1

17.3.1 配置邮件服务器·· 17-1

17.3.2 创建全网健康报告任务·· 17-2

17.3.3 立即生成健康报告·· 17-3

17.3.4 结果展示·· 17-4

17.4 注意事项·· 17-5

18 RoCE网络分析业务·· 18-1

18.1 配置流程·· 18-1

18.2 组网规划·· 18-1

18.3 配置步骤·· 18-1

18.3.1 交换机配置·· 18-1

18.3.2 RoCE服务器配置·· 18-5

18.3.3 RoCE相关解析任务配置·· 18-10

18.3.4 RoCE网络分析的服务器和集群配置·· 18-10

18.3.5 会话使能和AI ECN配置·· 18-12

18.3.6 一键检测和流量测试配置·· 18-14

18.3.7 租户配置·· 18-18

18.3.8 结果展示·· 18-18

18.4 注意事项·· 18-27

19 NetStream流分析·· 19-1

19.1 配置流程·· 19-1

19.2 组网规划·· 19-1

19.3 配置步骤·· 19-1

19.3.1 基础网络配置·· 19-1

19.3.2 设备侧配置·· 19-1

19.3.3 开启分析组件解析任务·· 19-2

19.3.4 Netstream全局配置·· 19-2

19.3.5 结果展示·· 19-6

19.4 注意事项·· 19-7

20 vSwitch健康监测·· 20-1

20.1 配置流程·· 20-1

20.2 组网规划·· 20-1

20.3 配置步骤·· 20-1

20.3.1 配置数据源控制组件·· 20-1

20.3.2 添加vSwitch资产·· 20-1

20.3.3 结果展示·· 20-1

21 网络路径分析·· 21-1

21.1 配置流程·· 21-1

21.2 组网规划·· 21-1

21.3 配置步骤·· 21-1

21.3.1 探测目标设备配置·· 21-1

21.3.2 中间设备配置·· 21-1

21.3.3 结果展示·· 21-2

21.4 注意事项·· 21-2

22 能效分析·· 22-1

22.1 配置流程·· 22-1

22.2 组网规划·· 22-1

22.3 配置步骤·· 22-1

22.3.1 添加gRPC采集项·· 22-1

22.3.2 开启NodeKpiAnalysis解析任务·· 22-1

22.3.3 能效分析参数配置·· 22-1

22.3.4 结果展示·· 22-2

23 网络拥塞分析·· 23-1

23.1 配置流程·· 23-1

23.2 组网规划·· 23-1

23.3 配置步骤·· 23-1

23.3.1 基础网络配置·· 23-1

23.3.2 添加gRPC采集项·· 23-1

23.3.3 开启BufferMonitor解析任务·· 23-2

23.3.4 结果展示·· 23-2

23.4 注意事项·· 23-3

24 业务故障分析·· 24-1

24.1 配置流程·· 24-1

24.2 组网规划·· 24-1

24.3 配置步骤·· 24-1

24.3.1 基础网络配置·· 24-1

24.3.2 设备侧配置·· 24-1

24.3.3 采集器配置·· 24-1

24.3.4 应用配置·· 24-2

24.3.5 开启解析任务·· 24-2

24.3.6 结果展示·· 24-6

25 FAQ· 25-1

25.1 125x设备无法通过控制组件下发远程镜像配置,需要手动配置,配置过程示例如下。·· 25-1

25.2 H3C S6805S6825S9850系列交换机如何配置内部环回功能?·· 25-2

25.3 如何配置PTP时钟同步?·· 25-2

26 附录-采用网管的ICC功能完成可视化配置下发·· 26-1

26.1 gRPC配置·· 26-1

26.2 ERSPAN配置·· 26-3

26.3 INT配置·· 26-3

26.3.1 首节点配置·· 26-4

26.3.2 中间节点配置·· 26-4

26.3.3 尾节点配置·· 26-5

26.4 Telemetry Stream配置·· 26-5

 


1 概述

分析组件聚焦于机器数据的价值挖掘,以大数据技术为基础,通过机器学习、深度学习等手段,从海量数据中分析有价值的信息,为企业网络及业务运维以及商业决策提供参考依据。分析组件通过对设备性能、用户接入、业务流量的实时数据采集和状态感知,通过大数据分析技术和人工智能算法,将网络的运行可视化,主动感知网络的潜在风险并自动预警。

分析组件所分析的数据主要包括:网络设备运行数据、网络业务应用流量数据、用户接入和使用网络的记录数据等。

DC场景功能简介:

数据中心分析组件以保障数据中心网络的高可靠、低延时为目的。通过全时全量采集网络设备运行信息,建立起全网的健康度评估体系,支持对数据中心内TCP\UDP的会话分析、应用的可视与分析、芯片级缓存监控和丢包分析。对数据中心网络运维实现了全方位支持与保障。

1.1  术语对照表

表1 术语对照表

术语

说明

SNMP

Simple Network Management Protocol,简单网络管理协议,用于网络设备的远程管理和操作

NETCONF

Network Configuration Protocol,网络配置协议,用于对网络设备进行配置和管理,支持编程

NetStream

NetStream技术是一种基于流的统计技术,用于对网络中的业务流量统计和分析

ERSPAN

三层远程镜像技术,镜像报文封装为协议号是0x88BEGRE报文,路由到远端监控设备,用于数据监测

Syslog

Syslog协议,记录系统日志信息

Telemetry

Telemetry Stream是一项从设备上采集数据的网络监控技术,用于向采集器上送数据

gRPC

Google Remote Procedure CallGoogle远程过程调用,用于网络设备进行配置和管理,可支持多种编程语言

INT

In-band Telemetry,是一项从设备上采集数据的网络监控技术,用于向采集器上送采集数据,采集器分析收到的采集数据,对网络设备的性能及网络运行情况进行监控

TCB

TCBTransient Capture Buffer,瞬时抓包缓存)是一种MMUMemory Management Unit,缓存管理单元)监控队列丢包的技术

MOD

MODMirror On Drop,丢包镜像)功能可以检测报文在设备内部转发过程中发生的丢包

PFC

PFCPriority-based Flow Control,基于优先级的流量控制)功能是一种精细的流量控制机制,可以满足以太网流量传输的无丢包要求,通过以太网提供无损服务。

ECN

RFC 2481定义了一种端到端的拥塞通知机制, ECN功能利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。支持该功能的终端设备可以通过报文内容判断出传输路径上发生了拥塞,从而调整报文的发送方式,避免拥塞加剧。

RoCE

RoCERDMA over Converged Ethernet)是一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议。

 

1.2  网络介绍

注意

·     本手册中网络方案采用南向单协议栈,采集网络使用IPv4协议。

·     采集组件南向单协议栈和南向双协议栈部署场景,必须存在采集网关,且采集Pod南向网络与网关网络需能互通(双栈情况下,IPv4/IPv6网络都需能互通),否则可能导致无法采集数据。

 

·     北向网络:即统一数字底盘中设置的北向业务虚IP,是集群对外提供服务的IP地址。

·     南向网络:采集组件和独立采集器用于接收来自设备端的采集数据所使用的网络。需确保南向网络和待采集设备之间可达。目前南向支持三种网络方案,请根据实际组网选择:

¡     南北向网络合一:分析组件数据采集共用统一数字底盘的网络,不单独创建附加网络。

¡     南向单协议栈:南向单协议栈组网方案中,数据采集使用单独的网络,可使用IPv4IPv6协议。

¡     南向双协议栈:南向双协议组网方案中,数据采集使用单独的网络,并且需要同时配置IPv4IPv6的地址。

1.3  组网规划

图1 组网图

 

组网说明:

·     分析组件南北网络分离,南向网段可与设备管理口同网段,也可不同

·     Erspan/INT/Telemetry stream流量走带内业务口至采集器采集网卡

·     Leaf节点设备/Border节点设备采用M-LAG组网,防止单点故障。其中该组网M-LAG设备keepalive链路地址复用设备管理网地址。实际组网请按需要进行地址分配

·     采集器用于Erspan/INT/Telemetry stream流量的采集,操作系统可使用统一数字底盘自带操作系统H3Linux操作系统(当前推荐使用统一数字底盘E0707(不含)之前的操作系统),采集网卡需要支持DPDK,支持DPDK的常见网卡类型见分析组件安装部署指导。

表2 设备和服务器各接口IP地址详情

设备

接口

IP地址

备注

统一数字底盘北向虚IP

\

192.168.10.145

集群北向虚IP地址,接入北向网络

南向被动采集IP地址

\

192.168.16.100

南向被动采集虚IP地址,接入南向网络

分析组件与网络设备使用gRPC/Syslog/SNMP Trap/NetStream/NAT/sFlow协议交互的IP地址

南向主动采集IP地址

\

192.168.16.104

南向主动采集虚IP地址,接入南向网络

分析组件与网络设备使用SNMP/NETCONF交互的IP地址

SA001

ethipv4(连接MGT

192.168.10.141

节点1北向网络地址 ,接入北向网络

enp61s0f0(连接MGT

192.168.16.101

节点1南向被动采集pod地址,接入南向网络

enp61s0f0(连接MGT

192.168.16.105

节点1南向主动采集pod地址,接入南向网络

SA002

ethipv4(连接MGT

192.168.10.142

节点2北向网络地址,接入北向网络

enp61s0f0(连接MGT

192.168.16.102

节点2南向被动采集pod地址,接入南向网络

enp61s0f0(连接MGT

192.168.16.106

节点2南向主动采集pod地址,接入南向网络

SA003

ethipv4(连接MGT

192.168.10.143

节点3北向网络地址 ,接入北向网络

enp61s0f0(连接MGT

192.168.16.103

节点3南向被动采集pod地址,接入南向网络

enp61s0f0(连接MGT

192.168.16.107

节点3南向主动采集pod地址,接入南向网络

采集器

enp61s0f0(连接MGT

192.168.10.146

采集器管理地址,接入北向网络

enp61s0f3(连接leaf1-WGE1/0/11

11.1.1.3

采集器采集网卡地址,接入业务网络

\

11.1.1.2

采集器浮动IP地址,接入业务网络

管理交换机

MGT

vlan-int10

192.168.10.1

分析组件北向网络网关,接入北向网络

192.168.12.1

控制组件南向网络网关

vlan-int11

192.168.16.1

分析组件南向网络网关,接入南向网络

vlan-int21

192.168.11.1

设备管理网络网关

leaf1

MGE0/0/0

192.168.11.23

设备管理地址

WGE1/0/1(连接spine1WGE1/0/1)

10.1.1.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/11)

10.2.1.2

underlay接口地址

WGE1/0/21(连接leaf2WGE1/0/21)

Int-Vlan4094

69.1.1.11

IPL接口

WGE1/0/31(连接采集器)

11.1.1.1

采集器采集网卡互通地址

Loop0

2.1.1.11

环回口地址

Loop1

3.1.1.11

环回口地址,MLAG group地址

Leaf2

MGE0/0/0

192.168.11.24

设备管理地址

WGE1/0/1(连接spine1WGE1/0/2)

10.1.2.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/12)

10.2.2.2

underlay接口地址

WGE1/0/21(连接leaf1WGE1/0/21)

Int-Vlan4094

69.1.1.111

IPL接口

Loop0

2.1.1.111

环回口地址

Loop1

3.1.1.11

环回口地址,MLAG group地址

Leaf3

MGE0/0/0

192.168.11.25

设备管理地址

WGE1/0/1(连接spine1WGE1/0/3)

10.1.3.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/13)

10.2.3.2

underlay接口地址

WGE1/0/21(连接leaf4WGE1/0/21)

Int-Vlan4094

68.1.1.3

IPL接口

Loop0

2.1.1.22

环回口地址

Loop1

3.1.1.111

环回口地址,MLAG group地址

Leaf4

MGE0/0/0

192.168.11.26

设备管理地址

WGE1/0/1(连接spine1WGE1/0/4)

10.1.4.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/14)

10.2.4.2

underlay接口地址

WGE1/0/21(连接leaf4WGE1/0/21)

Int-Vlan4094

68.1.1.4

IPL接口

Loop0

2.1.1.222

环回口地址

Loop1

3.1.1.111

环回口地址,MLAG group地址

Boarder1

MGE0/0/0

192.168.11.27

设备管理地址

WGE1/0/1(连接spine1WGE1/0/5)

10.1.5.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/15)

10.2.5.2

underlay接口地址

WGE1/0/21(连接boarder2WGE1/0/21)

Int-Vlan4094

70.1.1.1

IPL接口

Loop0

2.1.1.21

环回口地址

Loop1

3.1.1.211

环回口地址,MLAG group地址

Boarder2

MGE0/0/0

192.168.11.28

设备管理地址

WGE1/0/1(连接spine1WGE1/0/6)

10.1.6.2

underlay接口地址

WGE1/0/11(连接spine2WGE1/0/16)

10.2.6.2

underlay接口地址

WGE1/0/21(连接boarder1WGE1/0/21)

Int-Vlan4094

70.1.1.2

IPL接口

Loop0

2.1.1.21

环回口地址

Loop1

3.1.1.211

环回口地址,MLAG group地址

Spine1

MGE0/0/0

192.168.11.29

设备管理地址

 

WGE1/0/1(连接leaf1:WGE1/0/1)

10.1.1.1

underlay接口地址

 

WGE1/0/2(连接leaf2:WGE1/0/1)

10.1.2.1

underlay接口地址

 

WGE1/0/3(连接leaf3:WGE1/0/1)

10.1.3.1

underlay接口地址

 

WGE1/0/4(连接leaf4:WGE1/0/1)

10.1.4.1

underlay接口地址

 

WGE1/0/5(连接boarder1:WGE1/0/1)

10.1.5.1

underlay接口地址

 

WGE1/0/6(连接boarder2:WGE1/0/1)

10.1.6.1

underlay接口地址

 

Loop0

2.1.1.10

环回口地址

Spine2

MGE0/0/0

192.168.11.30

设备管理地址

 

WGE1/0/11(连接leaf1:WGE1/0/11)

10.2.1.1

underlay接口地址

 

WGE1/0/12(连接leaf2:WGE1/0/11)

10.2.2.1

underlay接口地址

 

WGE1/0/13(连接leaf3:WGE1/0/11)

10.2.3.1

underlay接口地址

 

WGE1/0/14(连接leaf4:WGE1/0/11)

10.2.4.1

underlay接口地址

 

WGE1/0/15(连接boarder1:WGE1/0/11)

10.2.5.1

underlay接口地址

 

WGE1/0/16(连接boarder2:WGE1/0/11)

10.2.6.1

underlay接口地址

 

Loop0

2.1.1.10

环回口地址

 

注意

南向被动采集pod和南向主动采集pod使用同一张网卡。

 

 


2 基础网络配置

2.1  配置流程

图2 配置流程图

 

2.2  组网规划

请参见组网规划章节。

2.3  配置步骤

2.3.1  配置网络设备

本章节内容需要在分析组件纳管的所有网络设备上配置,包括SpineLeafBorder设备。

1. 配置路由

配置网络设备到分析组件南向采集网络的静态路由(如果配置控制组件有下发,不需要重复配置)

[Device] ip route-static 192.168.16.0 24 192.168.11.1

说明

192.168.16.0是分析组件南向网络的网段,192.168.11.1是设备管理网的网关。通过配置路由实现设备管理网和分析组件南向网络互通,如果配置了VPN实例,请在命令中指定对应的VPN实例参数。

 

2. 配置日志主机

[Device] info-center loghost source MGE 0/0/0

[Device] info-center loghost 192.168.16.100 facility local5

3. 配置SNMP

[Device] snmp-agent 

[Device] snmp-agent community write private

[Device] snmp-agent community read public

[Device] snmp-agent sys-info version v2c v3

[Device] snmp-agent target-host trap address udp-domain 192.168.16.100 params securityname public v2c

[Device] snmp-agent trap enable arp 

[Device] snmp-agent trap enable l2vpn

[Device] snmp-agent trap enable radius 

[Device] snmp-agent trap enable stp

[Device] snmp-agent trap source M-GigabitEthernet0/0/0

[Device] snmp-agent configuration-examine interval 10

4. 配置NETCONF

[Device] netconf ssh server enable

5. 配置SSH

[Device] ssh server enable

6. 配置本地用户

设置用户名、密码为adminQwert@1234

[Device]local-user admin class manage

[Device-luser-manage-admin] password simple Qwert@1234

[Device-luser-manage-admin] service-type ftp

[Device-luser-manage-admin] service-type telnet http https ssh  

[Device-luser-manage-admin] authorization-attribute user-role network-admin

[Device-luser-manage-admin] authorization-attribute user-role network-operator

[Device-luser-manage-admin] line vty 0 63 

[Device-line-vty0-63] authentication-mode scheme

[Device-line-vty0-63]user-role network-admin 

[Device-line-vty0-63]user-role network-operator 

[Device-line-vty0-63] quit

说明

在非underlay自动化情况下,配置网络设备章节的1~6小节均需要手工下发。

 

7. 在控制组件上配置gRPC

控制组件支持下发gRPC配置。gRPC用于采集设备上的数据。

(1)     添加采集器

[分析>采集配置>Telemetry]页面,增加采集器:

IP地址为192.168.16.100(南向单协议时,南向被动采集虚IP;南北向网络合一时,北向业务虚IP),端口号为50051,用于设备通过gRPC方式上送数据,例如CPU、内存、接口信息,缓存队列等数据。

图3 控制组件添加采集器gRPC

 

(2)     添加采集模板

[分析>采集配置>Telemetry>gRPC]页面,选择采集模板页签,单击<增加>按钮,选择采集路径;采集信息可根据需要修改,基础采集建议包括:设备信息、接口信息、错包统计、表项资源、变更分析,不同采集项根据数据模型和数据量不同建议的推送周期不一样,建议按照默认推荐使用即可。也可以点击功能推荐,内置了两种场景下的采集项列表,分别为RoCE网络分析和VXLAN网络分析,此处以VXLAN网络分析举例。目前分析组件不支持解析带时间戳格式的gRPC数据。因此,请勿在控制组件添加gRPC采集模板时勾选“使能时间戳”选项。相应的命令行为:json row-timestamp enable

图4 不同场景的gRPC采集项列表

 

图5 gRPC采集模板

 

注:单击“仅显示已勾选”,此时只展示上述功能推荐后的27项采集项

如果想修改采集项的推送周期,存在如下三种方式修改,但是生效范围有区别:

¡     创建采集模板时进行推送周期修改,针对当前采集模板生效。

¡     模板创建好后,采集模板列表中点击采集路径进行推送周期修改,也只针对当前采集模板生效。

¡     单击采集路径库,修改推送周期,重新创建模板会按照修改后的周期进行数据推送。针对所有新创建的采集模板都生效

图6 修改采集路径库

 

(3)     添加采集策略

[分析>采集配置>Telemetry>gRPC]页面下,单击“采集策略”页签,再单击<增加>按钮新增采集策略,填写采集策略名称,选择采集模板名称,设备列表中选择待下发的设备,可选采集器列表选择待绑定的采集器,单击<确定>按钮后,即通过控制组件成功下发gRPC配置。

图7 添加采集策略

 

控制组件下发成功后,在设备侧生成的gRPC相关配置,下面按照模块功能分类说明。

¡     设备管理信息采集:

sensor path device/base                            //用于设备信息采集

sensor path device/boards                            //用于设备信息采集(是否采集能耗数据请咨询产品)

sensor path device/extphysicalentities              //用于设备信息采集

sensor path device/physicalentities               //用于设备信息采集

sensor path device/transceivers                     //用于设备光模块采集

下面3条不支持控制组件下发,需手动添加

sensor path device/transceiverschannels           //用于设备一分四光模块数据采集

sensor path device/chassis                           //用于采集框式设备能耗数据

sensor path device/fans                                //用于采集能耗的风扇转速数据(具体支持情况以设备为准)

¡     接口管理信息采集:

sensor path ifmgr/ethportstatistics                //用于设备接口统计采集

sensor path ifmgr/interfaces                            //用于设备接口采集

sensor path ifmgr/statistics                             //用于设备接口统计采集

¡     设备缓存监控信息(可选):

sensor path buffermonitor/bufferusages               //用于buffermonitor数据采集  

sensor path buffermonitor/commbufferusages         //用于buffermonitor数据采集    

sensor path buffermonitor/commheadroomusages      //用于buffermonitor数据采集

sensor path buffermonitor/ecnandwredstatistics   //用于buffermonitor数据采集

sensor path buffermonitor/egressdrops      //用于buffermonitor数据采集

sensor path buffermonitor/ingressdrops     //用于buffermonitor数据采集

sensor path buffermonitor/pfcspeeds    //用于buffermonitor数据采集

sensor path buffermonitor/pfcstatistics    //用于buffermonitor数据采集

¡     表项资源采集:

sensor path resourcemonitor/monitors       //用于表项资源采集路径,替代Netconf采集

sensor path resourcemonitor/resources     //用于表项资源采集路径,替代Netconf采集

¡     变更分析采集:

sensor path route/ipv4routes  //用于变更分析相关表项采集路径

sensor path route/ipv6routes //用于变更分析相关表项采集路径

sensor path lldp/lldpneighbors //用于变更分析相关表项采集路径

sensor path mac/macunicasttable //用于变更分析相关表项采集路径

sensor path arp/arptable //用于变更分析相关表项采集路径

sensor path nd/ndtable  //用于变更分析相关表项采集路径

¡     以下路径可支持增量上报,建议使用增量上报方式。变更分析全量上报与增量上报的sensor path不需要重复配置,如果配置了增量方式上报,则无需再配置全量方式,相关路径根据设备支持情况而定。增量上报采集周期建议配置为3600s

sensor path arp/arptableevent   //用于变更分析相关表项采集路径,增量上报(早期版本为arp_event/arptableevent

sensor path mac/overlaymacevent   //用于变更分析相关表项采集路径,增量上报

sensor path mac/underlaymacevent   //用于变更分析相关表项采集路径,增量上报

sensor path nd/ndtableevent   //用于变更分析相关表项采集路径,增量上报

sensor path route_stream/ipv4routeevent   //用于变更分析相关表项采集路径,增量上报

sensor path route_stream/ipv6routeevent   //用于变更分析相关表项采集路径,增量上报

¡     事件类采集(可选):

sensor path buffermonitor/portquedropevent   //队列丢包告警

sensor path buffermonitor/portqueoverrunevent   //队列超限告警

sensor path tcb/tcbpacketinfoevent //用于TCB采集路径

sensor path telemetryftrace/genevent //用于MOD数据采集路径

8. 手动配置gRPC

在传统组网场景中,通常不部署控制组件,此时需要手动配置gRPC。采集路径参考上述控制组件推荐的采集路径,此处不一一举例。根据实际需要进行选择配置。具体配置过程举例说明如下,配置中采集组、目标组、订阅的名称可自定义:

全局配置:

[Device] Grpc enable //使能grpc

创建周期类采集:

[Device] telemetry   //进入telemetry视图

[Device-telemetry] sensor-group group_grpc  //创建采集组

[Device-telemetry-sensor-group-group_grpc] sensor path device/base   //添加采集路径

[Device-telemetry-sensor-group-group_grpc] sensor path device/boards   //添加采集路径

[Device-telemetry-sensor-group-group_grpc]

destination-group destination_grpc   //创建目标组

[Device-telemetry-destination-group-destination_grpc]

ipv4-address 192.168.16.100 port 50051 vpn-instance mgmt   //目标组地址、端口,是否添加vpn,根据实际组网配置

[Device-telemetry-destination-group-destination_grpc]

subscription subscription_grpc   //创建订阅,关联传感器组和目标组

[Device-telemetry-subscription_grpc]

sensor-group group_grpc sample-interval 60  //关联传感器组,采集周期根据实际情况配置

[Device-telemetry-subscription_grpc]

 source-address 192.168.12.23  //配置源地址,建议设备管理IP

[Device-telemetry-subscription_grpc]

 destination-group destination_grpc  //关联目标组

[Device-telemetry-subscription_grpc] quit

创建事件类采集:

[Device] telemetry   //进入telemetry视图

[Device-telemetry] sensor-group group_grpc  //创建采集组

[Device-telemetry-sensor-group-group_grpc]

sensor path tcb/tcbpacketinfoevent   //添加采集路径

[Device-telemetry-sensor-group-group_grpc]

sensor path telemetryftrace/genevent   //添加采集路径

[Device-telemetry-sensor-group-group_grpc]

destination-group destination_grpc   //创建目标组

[Device-telemetry-destination-group-destination_grpc]

ipv4-address 192.168.16.100 port 50051 vpn-instance mgmt   //目标组地址、端口,是否添加vpn,根据实际组网配置

[Device-telemetry-destination-group-destination_grpc]

subscription subscription_grpc   //创建订阅,关联传感器组和目标组

[Device-telemetry-subscription-subscription_grpc]

sensor-group group_grpc  //关联传感器组,事件类采集不需要配置周期

[Device-telemetry-subscription-subscription_grpc]

source-address 192.168.12.23  //配置源地址,建议设备管理IP

[Device-telemetry-subscription-subscription_grpc]

destination-group destination_grpc  //关联目标组

[Device-telemetry-subscription-subscription_grpc]

quit

注意

·     配置目标组时,IP地址是南向被动采集的虚IP地址,端口号50051。如果设备到分析组件的接口绑定了vpn实例,需要在目标组的采集器地址后面追加vpn-instance参数,否则不需要。

·     非事件类采集周期无控制器时建议统一按照1分钟配置,存在控制器下发gRPC配置时默认按照控制器推荐的推送周期下发即可。

 

9. 时区和时间配置(网络设备端)

(1)     查看分析组件的时间

使用date命令查看分析组件的时间:

[root@sa ~]# date

Sat Aug 13 14:27:51 CST 2022

(2)     配置时区

网络设备的时区与分析组件环境的时区保持一致,以北京时区为例,设备侧操作如下:

[Device] clock timezone bj add 08:00:00

(3)     调整时间

以设备调整时间为2021-12-08 14:53:00为例

[Devie] clock protocol none

[Device] quit

<Device> clock datetime 14:53:00 2021/12/08

(4)     调整时区和时间后,查看时间是否生效

<Device> system-view

[Device] dis clock

14:53:13.271 bj Wed 12/08/2021

Time Zone : bj add 08:00:00

2.3.2  添加网络资产

说明

导入资产有多种方式,包括从控制组件同步、手动增加、从Excel导入、从统一数字底盘导入等,可以根据需要使用其中一种或多种方式添加网络资产。

 

1. 同步控制组件资产

(1)     添加控制组件连接信息:进入[分析>分析选项>资源管理>资产管理>数据源管理]页面,单击<增加>按钮,填写基本配置信息,单击<确定>按钮,保存成功。

¡     名称:填写控制组件名称(无特殊字符限制,不超过36个字符)

¡     类型:控制组件

¡     场景:DC

¡     用户名:管理员账号admin,具体可参考控制组件的开局指导配置

¡     密码:填写管理员账号admin的密码Pwd@12345

¡     IP:北向业务虚IP地址

¡     端口:登录该系统url对应的端口,协议为http时,默认为30000;协议为https时,默认为30443

¡     https:当采用http登录时,不勾选;当采用https登录时,勾选

图8 配置控制组件数据源

 

(2)     导入逻辑区域:进入[分析>分析选项>资源管理>区域管理>逻辑区域]页面,单击<导入区域>按钮,选择从控制组件导入区域,等待区域导入成功。从控制组件导入的逻辑区域,对应控制组件的Fabric

图9 导入逻辑区域

 

(3)     导入资产:进入[分析>分析选项>资源管理>资产管理>资产列表]页面,单击<导入资产>按钮,选择从控制组件导入,等待资产导入成功。

图10 导入资产

 

2. 手动添加资产

(1)     进入[分析>分析选项>资源管理>资产管理]页面,单击<增加资产>按钮,添加资产信息。

¡     资产类型:网络设备

¡     设备分类:交换机

¡     资产名称:必填,输入资产名称(仅支持字母、中文、数字、连字符、下划线、波浪字符和点,且不得超过100位)

¡     IP地址:必填,支持输入IPv4IPv6

¡     所属场景:必填,下拉框选DC

(2)     单击<保存>按钮,添加资产后自动获取设备其他信息。

说明

·     资产类型、设备分类、资产名称、IP地址和所属场景为必填项,其他的为选填项,增加资产后系统自动获取设备其他信息。

·     安全设备支持手动添加资产,添加方式同网络设备一致。

 

图11 增加资产

 

3. Excel导入

进入[分析>分析选项>资源管理>资产管理>资产列表]页面,先下载Excel模板,填入数据后,再选择从Excel导入。

图12 Excel导入资产

 

4. 从基础网管导入

进入[分析>分析选项>资源管理>资产管理>资产列表]页面,单击<导入资产>\<从基础网管导入>按钮,进行导入。

图13 从基础网管导入资产

 

图14 从基础网管导入资产

 

2.3.3  配置协议模板

1. 增加SNMP协议模板

进入[分析>分析选项>采集管理>统一采集>SNMP]页面,协议模板,单击<增加>按钮,输入参数。

·     模板名称:输入模板名称(仅支持字母、数字、连字符、下划线,且不得超过32位)

·     版本:SNMP协议的版本,默认v2c(下拉可选v2cv3

·     只读团体名:输入SNMP协议的只读团体名,需和设备配置一致

·     读写团体名:输入SNMP协议的读写团体名,需和设备配置一致

·     端口:SNMP协议端口,默认端口161

·     超时时间(秒):SNMP数据请求超时时间,默认4秒,可输入1-60的整数

·     重试次数:SNMP数据请求重试次数,默认3次,可输入1-20的整数

图15 创建SNMP协议模板

 

2. 增加SNMP采集模板

系统预置1个采集模板,该模板适用于大多数设备,满足基本的网络分析需求。如果有特殊需求可以自定义SNMP采集模板。

进入[分析>分析选项>采集管理>统一采集>SNMP]页面,采集模板,单击<(继承)增加>按钮,输入参数。

·     模板名称:输入模板名称

·     说明:非必填,说明模板用途及特点

·     采集指标:勾选采集指标,可以根据需要修改采集指标的采集周期

图16 (继承)增加SNMP协议模板

 

3. 增加NETCONF协议模板

进入[分析>分析选项>资源管理>协议模板>NETCONF]页面,协议模板,单击<增加>按钮,输入参数。

·     模板名称:输入模板名称(仅支持字母、数字、连字符、下划线,且不得超过32位)

·     用户名:输入NETCONF服务的用户名,和设备配置一致

·     密码:输入NETCONF服务的密码,和设备配置一致

·     连接协议:NETCONF服务的连接协议,默认SSH即可

·     端口:NETCONF服务的端口,默认端口830

·     访问路由:NETCONF请求的URL路径,默认路径即可

图17 创建NETCONF协议模板

 

4. 增加NETCONF采集模板

系统预置DC场景2个采集模板:

·     DC通用模板:该模板适用于大多数设备,提供DC场景中等精度采集数据。

·     DC高级模板:该模板适用于大多数设备,提供DC场景高精度采集数据。

如果有特殊需求可以自定义NETCONF采集模板。

进入[分析>分析选项>采集管理>统一采集>NETCONF]页面,采集模板,单击<(继承)增加>按钮,输入参数。

·     模板名称:输入模板名称

·     说明:非必填,说明模板用途及特点

·     采集指标:勾选采集指标,可以根据需要修改采集指标的采集周期

图18 (继承)增加NETCONF采集模板

 

2.3.4  设置协议

1. 设置SNMP模板

(1)     进入[分析>分析选项>资源管理>资产管理>资产列表]页面,勾选资产,单击<设置协议>\<SNMP模板设置>按钮,进行SNMP模板设置。

图19 资产列表SNMP模板设置

 

(2)     在弹窗中,勾选SNMP协议模板和采集模板。

图20 SNMP模板设置

 

2. 设置NETCONF模板

(1)     进入[分析>分析选项>资源管理>资产管理>资产列表]页面,勾选资产,单击<设置协议>\<NETCONF模板设置>,进行NETCONF协议模板设置。

图21 资产列表NETCONF模板设置

 

(2)     在弹窗中,勾选NETCONF协议模板和采集模板。

图22 NETCONF协议模板设置

 

图23 NETCONF采集模板设置

 

3. 设置SYSLOG

进入[分析>分析选项>资源管理>资产管理>资产列表]页面,勾选资产,然后单击<SYSLOG>\<使能>按钮,使能SYSLOG采集,主要用于异常分析部分case解析。

图24 使能SYSLOG采集

 

2.3.5  查看南向采集IP地址

文档中涉及的南向采集IP地址,即分析组件与网络设备交互的IP地址需要根据实际组网部署情况而定,部署时选择南向单协议,南向采集IP地址为南向单协议系统分配的IP

(1)     南向采集IP地址查看方法如下,登录Matrix页面,进入[部署>融合部署]页面,展开“公共服务”,在采集组件的操作列,单击<详情>按钮,进行查看。

图25 公共服务页面

 

(2)     在详情页面,有init后缀的组件名称对应的集群IP为南向主动采集IP地址;无init后缀的组件名称对应的集群IP为南向被动采集IP地址。如果详情页面中无IP地址数据,则表示使用了南北向合一部署方式,此方式下,南向采集IP地址为集群的北向业务虚IP

2.3.6  采集器接入业务网络

需确保SeerCollector采集器采集流量的网卡与接入的数据中心业务网络路径可二层互通,以组网规划为例,需在Leaf1上创建采集VLAN,并创建VLAN虚接口,配置IP地址,确保IP地址与采集网卡地址同一网段,配置举例如下:

[Leaf1] vlan 47

[Leaf1-vlan47] port Twenty-FiveGigE 1/0/27

[Leaf1-vlan47] quit

[Leaf1] interface Vlan-interface47

[Leaf1-Vlan-interface47] ip address 11.1.1.1 24

[Leaf1-Vlan-interface47] quit

发布采集VLAN的网段路由,建议使用OSPF协议。

[Leaf1] ospf

[Leaf1-ospf-1] area 0

[Leaf1-ospf-1-area-0.0.0.0] network 11.1.1.0 0.0.0.255

说明

[分析>分析选项>采集管理>采集器管理>先知采集器]页面下增加集群时,配置OSPFarea值需要与SeerCollector采集器的对端设备保持一致。

 

 


3 网络健康度

网络健康度从概览、设备、单板、芯片、接口、队列、光模块、链路、vSwitch等维度,展示网络设备的整体健康状况趋势、当前网络设备状况和当前系统中的网络设备列表。

3.1  配置流程

图26 配置流程图

 

3.2  组网规划

请参见组网规划章节。

3.3  配置步骤

3.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

3.3.2  开启分析组件解析任务

1. 配置DeviceResource解析

进入[分析选项>任务管理>分析任务]页面,启动DeviceResource解析任务。

图27 配置DeviceResource解析任务

 

2. 配置设备健康度任务

进入[分析选项>任务管理>分析任务]页面,启动健康度分析任务。

图28 健康度分析任务

 

3. 配置IfKpiGrpc解析

进入[分析选项>任务管理>分析任务]页面,启动IfKpiAnalysis解析任务。该解析任务是展示网络分析中端口监控的设备指标数据,包含光模块、接口丢包错包、链路信息。

图29 IfKpiAnalysis解析任务

 

4. 配置NodeKpiGrpc解析

进入[分析选项>任务管理>分析任务]页面,启动NodeKpiAnalysis解析任务。该解析任务是解析设备内存利用率、温度、CPU利用率、TCBMOD、表项资源、电源、风扇、功耗等指标信息。

图30 NodeKpiAnalysis解析任务

 

5. 配置buffermonitor流处理任务

进入[分析选项>任务管理>分析任务]页面,启动BufferMonitor解析任务。该解析任务是展示网络分析中缓存监控等信息。

图31 BufferMonitor解析任务

 

6. 配置SNMP告警解析任务

进入[分析选项>任务管理>分析任务]页面,启动SNMPTrap解析任务。

图32 SNMPTrap解析任务

 

7. 配置ProtocolAnalysis解析任务

进入[分析选项>任务管理>分析任务]页面,启动ProtocolAnalysis解析任务。

图33 ProtocolAnalysis解析任务

 

8. 基线异常检测

进入[分析选项>任务管理>分析任务]页面,启动基线异常检测任务。

图34 基线异常检测任务

 

3.3.3  结果展示

(1)     进入[健康分析>网络分析>网络健康度]页面,查看网络健康度整体情况,包括健康度趋势、网络健康分类展示、以及网络设备列表。

图35 网络健康度

 

(2)     单击网络设备列表的中的设备名称,可以下钻到该设备的详情页面。详情页面中,展示了该设备的健康度概览信息、系统信息、拓扑、流量统计、丢包分析等。

图36 健康度概览

 

图37 系统信息

 

图38 拓扑

 

图39 流量统计

 

图40 丢包分析

 

3.4  注意事项

无。

 


4 健康概览

该页面展示健康概览的相关页面,如概览、拓扑等。

4.1  配置流程

图41 配置流程图

 

4.2  组网规划

请参见组网规划章节。

4.3  配置步骤

4.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

4.3.2  开启分析组件解析任务

请参见开启分析组件解析任务章节。

4.3.3  获取拓扑

进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的<>图标。

图42 获取拓扑

 

4.3.4  流量热图

1. 拓扑配置

(1)     进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的<>图标。

(2)     在弹框中输入参数:

¡     一级:拓扑链路带宽利用率一级告警阈值。超阈值,流量热图变成红色。

¡     二级:拓扑链路带宽利用率二级告警阈值。超阈值,流量热图变成黄色。

(3)     单击<确定>按钮,保存配置。

图43 配置拓扑链路带宽利用率阈值

 

说明

单击<重置>按钮,可以重置拓扑链路带宽利用率阈值为默认值。

 

2. 开启流量热图

进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的<>图标。

图44 开启流量热图

 

4.3.5  结果展示

进入[健康分析>健康概览]页面,概览页面主要展示不同类型的设备的健康情况,应用的健康情况,故障趋势图,查看故障统计情况,以设备、网络、协议、Overlay、业务、主机为分类来展示不同类型对应等级故障的数目,设备健康度评分较差的五个设备和健康度评分,设备丢包数最多的五个设备和丢包数,设备时延最大的五个设备和时延大小。

图45 概览

 

进入[健康分析>健康概览>拓扑]页面,查看整网拓扑信息。该页面展示了整网的物理拓扑图,同时展示了各个设备的健康度,以及链路的状态。通过拓扑图右下方的操作按钮,可以对拓扑图进行操作,包括拓扑放大、缩小、保存操作,开启、关闭流量热图以及链路设置等操作。

图46 整网拓扑

 

4.4  注意事项

无。


5 丢包分析

丢包分析目前支持TCB丢包分析和MOD丢包分析。

·     TCBTransient Capture Buffer,瞬时抓包缓存)是一种用来监控MMUMemory Management Unit,缓存管理单元)队列丢包的技术。开启TCB功能后,系统将持续监控队列。当队列发生丢包时,系统将收集丢包时间、丢包原因、被丢弃报文的原始数据等信息,可通过gRPC方式上报网管或分析系统,方便网络管理员及时知晓设备上发生的丢包事件。

·     MODMirror On Drop,丢包镜像)是一种专门用来监控报文在设备内部转发过程中丢包情况的技术。一旦监控到设备内部发生丢包,就会立即记录丢包发生的时间,丢包原因和丢弃报文的特征,并上报给网管或分析系统,以便管理员及时知晓设备内部发生的丢包情况。

注意

丢包分析配置和其他配置有互斥的情况,具体请参见5.4 注意事项章节,请根据需要配置。

TCBMOD功能,需要在交换机上设置全局配置。开启之后对交换机的性能有一定影响,建议在开启之前,与对应产品确认是否可以开启。

 

5.1  配置流程

图47 配置流程图

 

5.2  组网规划

请参见组网规划章节。按需在H3C交换机上开启TCBMOD功能,设备支持情况参见注意事项。下面leaf1为例。

5.3  配置步骤

5.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

5.3.2  设备侧配置

1. TCB配置

(1)     创建编号为3001IPv4高级ACL,并为其创建规则,以匹配源IP地址为192.168.1.1的报文为例:

<Device> system-view

[Device] acl advanced 3001

[Device-acl-ipv4-adv-3001] rule permit ip source 192.168.1.1 0

[Device-acl-ipv4-adv-3001] quit

匹配的IP报文,请根据实际需要进行配置,限制报文的源、目的,或源和目的都限制,或者全部匹配。

(2)     配置TCB

以下列配置为例,在全局出方向匹配ACL 3001的报文开启TCB功能,进入预触发状态的队列长度门限值为10000字节,退出预触发状态的队列长度门限值为5000字节,抓包数量为1000,抓包时间为500微秒,预触发状态时的采样率为10,触发状态时的采样率为10,数据上报频次为600/分钟。

[Device] buffer transient-capture global egress enable acl 3001 start-threshold 10000 stop-threshold 5000 frozen-number 1000 frozen-timer 500 pre-sample-rate 10 post-sample-rate 10 poll-frequency 600

[Device] buffer transient-capture global egress enable

gRPC的配置方法请参见在控制组件上配置gRPC章节。

通过gRPC发送TCB丢包信息到分析组件,需要配置以下路径:

sensor path tcb/tcbpacketinfoevent

2. MOD配置

开启并配置MOD

(1)     配置telemetry mod进入mod视图

[Device] telemetry mod    

[Device-telemetry-mod]reason-list ip-multicase-error unknown-vlan ipv4-l3-header-error tunnel-header-error parity-error higig-header-error invalid-tpid   //配置MOD功能监控的丢包原因列表,目前驱动支持8种情形,ipv4-dip-miss会命中缺省路由的这种情况,不建议配置ipv4-dip-miss

[Device-telemetry-mod] device-id 2.1.1.11   //配置MOD功能的设备标识ID,设备环回口地址 

[Device-telemetry-mod] sampler samp   //开启MOD功能的采样功能 

[Device-telemetry-mod] transport-protocol grpc   //配置传输协议为gRPC,即通过gRPC方式上报丢包原因告警报文

[Device-telemetry-mod] quit

(2)     创建采样器

[Device] sampler samp mode random packet-interval n-power 4   //按照2的幂次采样,即1/16采样

(3)     创建acl规则mod后创建一个simple-mod模式的Flow group并进入视图

[Device] acl advanced name mod  //创建名称为modacl规则

[Device-acl-ipv4-adv-mod] rule 0 permit ip source 12.4.1.2 0  //配置规则,以匹配源IP地址为12.4.1.2的报文为例。匹配的IP报文,请根据实际需要进行配置,限制报文的源、目的,或源和目的都限制,或者全部匹配。

[Device]telemetry flow-group 1 mode simple-mod     //创建一个simple-mod模式的Flow group并进入视图

[Device-flow-group-1]template source-ip destination-ip source-port destination-port    //配置流表的生成规则

[Device-flow-group-1]if-match acl name mod   //引用名称为modacl规则,即只有匹配上规则的流量才生效;该规则需提前建立

(4)     应用flow group

[Device] telemetry apply  flow-group   1

(5)     配置流表的老化时间为10分钟

[Device] telemetry flow-group  aging-time   10

开启并配置gRPC

gRPC的配置方法请参见在控制组件上配置gRPC章节。

通过gRPC发送MOD丢包信息到分析组件,需要配置以下路径:

sensor path telemetryftrace/genevent

注意

TCBMOD部分配置只能手工下发,不支持控制组件配置。

5.3.3  应用配置

进入[分析选项>全局配置>应用配置]页面,新建自定义应用。

·     名称:定义的应用名称,应用名称“最长36个字符,支持中文、字母、数字、下划线”,必填

·     协议:该应用采用的通信协议,支持TCPUDPANY三种内容,默认TCP

·     服务器IP:组成应用的服务器一个或多个IP地址

·     服务器端口:应用的服务器段使用的通信端口

·     其他参数:可选

图48 应用配置

 

5.3.4  开启分析组件解析任务

请参见开启分析组件解析任务章节。

5.3.5  结果展示

进入[健康分析>网络分析>网络健康度>概览]页面,在设备列表中的单击设备名称,进入设备详情页面,可以查看流量转发丢包信息,以及缓存队列丢包信息。

·     在流量转发丢包部分,可以查看丢包原因,以及发生丢包匹配到的应用数量;选择矩形图中的某个时间点,可以与右侧的应用转发丢包列表联动,展示该丢包原因在该时间点的具体丢包应用。

图49 流量转发丢包信息

 

·     在缓存监控中,进入丢包详情页签,可以查看缓存队列丢包(采样数据,非真实丢包数据)的趋势信息。

图50 缓存队列丢包信息

 

5.4  注意事项

TCBMOD丢包功能当前支持H3C交换机685068256805S9850等产品。MOD丢包分析和INTTelemetry stream冲突,无法同时生效。

 


6 变更分析

变更分析展示网络设备历史快照数据的对比统计信息以及对比详细信息,默认展示最近24小时内的快照数据对比统计信息,可以通过时间选择器来调整时间范围,最多可查看最近30天的数据。

6.1  配置流程

图51 配置流程图

 

6.2  组网规划

请参见组网规划章节。

6.3  配置步骤

6.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

6.3.2  开启分析组件解析任务

请参见开启分析组件解析任务章节。

6.3.3  结果展示

进入[健康分析>网络分析>变更分析]页面,可查看变更分析详情。

·     “变更分析”页面展示了发生变更的设备占比。从设备和变更项的维度,对网络中发生的变更进行统计。展示了网络变更的趋势信息。

图52 变更分析

 

·     在变更设备列表中,展开设备详情,可以查看配置、表项和版本的变更情况。单击某一个变更项,可以进入到该变更项详情页面,里面详细展示了变更的具体信息。

图53 变更设备列表1

 

图54 变更设备列表2

 

图55 变更详情

 

6.3.4  注意事项

无。


7 异常分析

异常分析展示在所选时间内,整个组网中发生故障的统计,同时可通过切换页签查看根据设备、网络、协议、Overlay、业务和应用分类后的故障信息。

7.1  配置流程

图56 配置流程图

 

7.2  组网规划

请参见组网规划章节。

7.3  配置步骤

7.3.1  配置网络设备

请参见配置网络设备章节。

7.3.2  资产管理

1. 导入资产

请参见添加网络资产章节。

2. 设置协议

请参见配置协议模板设置协议章节。

3. 使能syslog

请参见设置SYSLOG章节。

7.3.3  开启分析组件解析任务

1. 启动网络健康度解析任务

请参见开启分析组件解析任务章节。

2. 启动异常分析解析任务

进入[分析选项>任务管理>分析任务]页面,启动任务异常分析Java、异常分析。

图57 异常分析解析任务

 

7.3.4  结果展示

(1)     进入[诊断分析>异常分析]页面,查看异常分析信息展示。

(2)     概览页面展示了发生的问题汇总。问题列表中展示了问题的严重级别、名称、故障对象、事件状态、问题现象状态、开始时间、结束时间和持续时间等。设备、网络等页签下进行了分类展示,同时展示了具体的问题case

(3)     单击展开问题后,可查看问题的根因分析、影响范围分析、问题详细过程以及处理建议。

(4)     单击问题列表中的操作按钮,可与控制组件联动,进行闭环操作预案下发(部分问题支持故障闭环预案下发操作)。

(5)     对问题进行确认和处理后,该问题会移入历史问题列表中。

图58 异常分析

 

图59 问题详情

 

图60 问题分类展示

 

7.4  注意事项

流分析相关故障,是从TCP流分析业务推送到异常分析,具体配置请参见TCP流分析章节。


8 交换机访问次数记录

交换机访问次数记录展示所选时间段内网络设备登录成功和失败次数的分布。

8.1  配置流程

图61 配置流程图

 

8.2  组网规划

请参见组网规划章节。

8.3  配置步骤

8.3.1  配置网络设备

请参见配置网络设备章节。

8.3.2  资产管理

1. 导入资产

请参见添加网络资产章节。

2. 设置协议

请参见配置协议模板设置协议章节。

3. 使能SYSLOG

请参见设置SYSLOG章节。

8.3.3  添加仪表

进入[健康分析>网络分析>网络健康度>概览]页面,添加“网络设备登录次数分布图”仪表。

图62 添加仪表

 

8.3.4  结果展示

进入[健康分析>网络分析>网络健康度>概览]页面,“网络设备登录次数分布图”仪表展示交换机的登录次数。

图63 网络设备登录次数分布图

 

8.4  注意事项

无。


9 数据面验证

数据面验证是展示验证实例的一致性、存在性、隔离性、可达性的验证结果,验证的记录,生成的网络模型的完整度以及验证的变化趋势等。

9.1  配置流程

图64 配置流程图

 

9.2  组网规划

请参见组网规划章节。

9.3  配置步骤

9.3.1  配置网络设备

请参见配置网络设备章节。

9.3.2  资产管理

1. 导入资产

请参见添加网络资产章节。

2. 设置协议

请参见配置协议模板设置协议章节。

9.3.3  开启分析组件解析任务

1. 启动网络解析任务

请参见开启分析组件解析任务章节。

9.3.4  验证实例相关配置

1. 验证任务配置

通过使能验证任务可以定时验证使能的验证并配置验证周期参数。

进入[诊断分析>数据面验证]页面,单击<设置验证任务>按钮,在弹框中使能验证并配置验证周期参数。

图65 设置验证任务

 

2. 使能验证配置

通过使能验证,可以周期任务性验证这些验证实例。

两种方式:

·     批量选择,单击<使能选中意图>按钮,使能需要验证任务,

·     使能某个任务,在“使能”区段,开启使能开关。

图66 设置验证任务

 

3. 自定义验证添加及修改

自定义验证指自定义的可达性验证和隔离性验证。

进入[诊断分析>数据面验证]页面,单击<增加验证>按钮,在弹框中配置相应参数,创建自定义验证任务。

·     类型:设定验证类型可达性或者隔离性

·     名称:设置验证的名称

图67 增加验证

 

9.3.5  结果展示

进入[诊断分析>数据面验证]页面,查看验证结果。

·     在数据面验证页面,可查看验证的汇总数据,以及历史趋势、当前的验证实例列表。

·     在验证实例列表中,可以自定义添加、删除验证,设置验证任务的周期,批量对验证进行使能等操作。

·     在验证记录中,可以查看验证的验证记录,同时也可查看进行了哪些验证。

·     在网络模型中,记录了历史的网络快照信息,点开每个快照,可查看快照详情。

·     在问题上报设置中,可对是否上报问题(推送至异常分析)进行自定义设置。

图68 数据面验证

 

·     在验证列表中,展示了当前预定义验证以及自定义验证。单击验证的状态,可以跳转到整网预置验证页面,查看该验证的详情展示。

图69 验证详情展示

 

9.4  注意事项

无。


10 TCP流分析

分析组件采集数据中心网络设备中转发的所有TCP会话控制报文,分别从Fabric、主机、应用、会话四个维度对TCP协议进行分析,还可以配置相关阈值与规则。TCP协议控制报文通过ERSPAN或者Telemetry Stream从交换机上采集。

10.1  配置流程

图70 配置流程图

 

10.2  组网规划

请参见组网规划章节。

10.3  配置步骤

10.3.1  设备侧配置

注意

·     在进行配置之前,请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

·     ERSPANTelemetry stream实现了同样的功能,不能同时使用这2种技术。

·     对于S12500G S系列、S9820-4C-GS12500CRS10500XG12500G-EFS6805GS6850G9850G设备,不需要配置业务环回组。

 

1. ERSPAN配置(控制组件下发)

(1)     控制组件增加采集器

进入[分析>采集配置>Telemetry>采集器]页面,增加采集器。

¡     名称:采集器的名称,最大长度255字节

¡     IP地址:10.10.10.2(采集器的浮动IP),用于Erspan/INT/Telemetry stream采集,INT采集使用5555端口号,Telemetry stream采集使用9995端口号。用于流分析的数据采集。该采集器只有在流分析启用时才需要配置(通过控制组件下发采集配置)

¡     端口号:INT采集使用5555端口号,Telemetry stream采集使用9995端口号

¡     VRF:设备发送数据到分析组件(gRPC)或采集器(ERSPAN/telemetry stream/INT)时的VRF。若勾选是,则使用管理VRF;若勾选否,则使用自定义的VRF,不填写时,表示使用公网。

图71 添加采集器

 

(2)     配置远程镜像

进入[分析>采集配置>Telemetry>远程镜像]页面,单击<增加>按钮,添加远程镜像。

¡     名称:镜像任务的名称

¡     设备类型:交换设备或主机(基于S1020v下发ERSPAN流表)

¡     交换设备名称:选择被镜像的设备名称

¡     主机IP地址:控制器纳管的主机IP地址(设备类型选择主机)

¡     采集器名称:步骤(1)配置的采集器名称

¡     接口名称:可以不指定

¡     VRF:设备转发镜像报文到采集器的VPN。请根据实际组网配置。

¡     匹配报文规则:匹配普通报文,或匹配带VXLAN封装的报文。若进入设备的报文不带VXLAN封装,则匹配普通报文;若进入设备的报文带VXLAN封装,则匹配VXLAN报文。具体来说,在SpineBorder分离的场景下,LeafBorder选择普通报文模式进行匹配,而Spine选择VXLAN报文模式进行匹配。在SpineBorder合一的场景下,Leaf选择普通报文模式进行匹配,而Border/Spine则选择同时匹配普通报文和VXLAN报文两种模式。这两种模式中,普通报文针对南北向流量生效,而匹配VXLAN报文则针对东西向流量生效。

¡     规则信息:匹配报文中TCP的标志位。包括SYNFINRST

图72 基于设备增加远程镜像

 

图73 规则信息

 

图74 基于主机增加远程镜像(S1020v场景配置)

 

2. ERSPAN配置(手动配置)

如果方案中无控制组件,可通过手动配置。如果已通过控制组件下发,请跳过该步骤。

手动配置以Device设备为例。

(1)     创建ACL

[Device] acl advanced name acl_test

[Device-acl-ipv4-adv-acl_test] rule 0 permit tcp syn 1

[Device-acl-ipv4-adv-acl_test] rule 5 permit tcp fin 1

[Device-acl-ipv4-adv-acl_test] rule 10 permit tcp rst 1

[Device] quit

(2)     创建流分类

[Device] traffic classifier cla_test operator and

[Device-classifier-cla_test] if-match acl name acl_test

[Device-classifier-cla_test] quit

(3)     创建流动作

[Device] traffic behavior be_test

[Device-behavior be_test]

mirror-to interface destination-ip 11.1.1.2 source-ip 192.168.12.23 //采集器部署模式为集群时,11.1.1.2为采集器浮动IP,部署模式是单机时,11.1.1.2为数据采集网口的物理IP192.168.12.23设备的管理地址

[Device-behavior be_test] quit

(4)     创建QoS Policy

[Device] qos policy policy_test

[Device-qospolicy-polict_test] classifier cla_test behavior be_test

(5)     全局inbound方向应用qos policy策略

[Device-qospolicy-polict_test] qos apply policy policy_test global inbound

(6)     查看配置生效,仅做示意图展示配置效果

[Device] display qos policy global

图75 查看配置生效

 

注意

·     不同角色设备下发的Erspan配置中的匹配有所差别,主要在于是否匹配VXLAN封装后内层的TCP报文的flag标记位。

·     采集器若连接的是M-LAG设备(目前只能是单挂组网),首先需要把该M-LAG的两台设备都要增加对应的远程镜像;其次自动化上线M-LAG默认下发IPL逃生的相关配置,此时没有挂采集器的M-LAG的那台设备到采集器采集网卡的路由的出接口为该IPL逃生vlan虚接口,若给该设备配置远程镜像选择接口名称的话,接口为该设备到对端M-LAG设备的IPL的聚合口。

·     控制器是否支持基于主机下发ERSPAN流表功能,请咨询控制器技术支持人员。该功能要求s1020v版本需在E3303及以上,且需要提前在控制器上创建好ERSPAN接口才可下发。

 

3. Telemetry Stream配置(控制组件下发)

(1)     ERSPAN一样,通过控制组件使能交换机的Telemetry Stream功能需要先在控制组件上配置采集器,请参见在控制组件上配置gRPC中添加采集器的相关内容。

(2)     通过控制组件配置Telemetry Stream

进入[分析>采集配置>Telemetry>Telemetry Stream]页面,单击<添加>按钮,增加交换机的Telemetry Stream配置。

¡     名称:配置任务的名称

¡     交换设备名称:被采集的设备名称

¡     IP地址:发送telemetry stream报文的源地址,设备的环回口地址

¡     源端口:发送telemetry stream报文的源端口,固定配置为12

¡     采集器名称:步骤(1)配置的采集器名称

¡     采样率:配置采样率,按照2的次方模式采样,建议采样率配置为0,例如采样率配置为2,表示1/4

¡     业务环回组接口名称:交换机用于报文环回的接口,需要是交换机的空闲接口,注意选择接口后,则会将该接口配置清除。

¡     设备接口:选择需要使能Telemetry Stream的接口

图76 增加Telemetry Stream

 

4. Telemetry stream配置(手动配置)

如果方案中无控制组件,可通过手动配置。如果已通过控制组件下发,请跳过该步骤。

(1)     开启Telemetry Stream的时间戳功能

[Device] telemetry stream timestamp enable

(2)     配置设备ID

[Device] telemetry stream device-id 192.168.12.23   //设备管理IP

(3)     配置上送采集器的报文的封装信息

[Device] telemetry stream collector source 2.1.1.11 destination 11.1.1.2 source-port 12 destination-port 9995   //2.1.1.11环回口地址,采集器部署模式为集群时,11.1.1.2为采集器浮动IP,部署模式是单机时,11.1.1.2为数据采集网口的物理IP

(4)     配置业务环回组1

[Device] service-loopback group 1 type telemetry-stream

(5)     加入业务环回组

[Device] interface Twenty-FiveGigE1/0/40

[Device-Twenty-FiveGigE1/0/40] port service-loopback group 1 

[Device-Twenty-FiveGigE1/0/40] quit

(6)     创建采样器

[Device] sampler samp_test mode random packet-interval n-power 0

(7)     创建ACL策略

[Device] acl advanced name acl_test

[Device-acl-ipv4-adv-acl_test] rule 0 permit tcp syn 1

[Device-acl-ipv4-adv-acl_test] rule 5 permit tcp fin 1

[Device-acl-ipv4-adv-acl_test] rule 10 permit tcp rst 1

[Device-acl-ipv4-adv-acl_test] rule 15 permit vxlan inner-protocol tcp inner-syn 1

[Device-acl-ipv4-adv-acl_test] rule 20 permit vxlan inner-protocol tcp inner-fin 1

[Device-acl-ipv4-adv-acl_test] rule 25 permit vxlan inner-protocol tcp inner-rst 1

[Device-acl-ipv4-adv-acl_test] quit

(8)     以接口GigabitEthernet1/0/1为例,配置Telemetry Stream动作,请在需要采集流量的接口上配置

[Device] interface Twenty-FiveGigE1/0/1

[Device-Twenty-FiveGigE1/0/1] telemetry stream action 1 acl name acl_test sampler samp_test

[Device-Twenty-FiveGigE1/0/1] quit

(9)     查看配置生效情况

[Device] dis telemetry stream

5. 采集网络配置

在设备上采集的信息,需要发送给采集器进行分析,故需要采集设备有到采集器采集网段(采集器配置见10.3.2章节)的路由。

在分析组件上完成采集器相关配置后(采集器配置见10.3.2章节),采集器在集群模式下会通过采集网卡,和直连设备建立OSPF邻居,将采集器浮动IP发布出来。其他采集设备到采集器浮动IP的路由,需要自行配置。采集器在单机模式下,通过静态路由方式和待纳管设备路由互通。

本小结介绍在采集网卡直连设备上需要进行的OSPF相关配置。以采集网卡地址为11.1.1.3/29,采集器浮动IP地址为11.1.1.2,采集网卡直连设备的IP地址为11.1.1.1,设备上配置ospf 57,接口所在VLANvlan11为例进行说明:

(1)     进入和采集网卡直连的接口,将接口加入到VLAN,本文以Device-Twenty-FiveGigE1/0/34接口为例,接口为bridge模式。

[Device]interface Twenty-FiveGigE 1/0/34

[Device-Twenty-FiveGigE1/0/34]port access vlan 11

[Device-Twenty-FiveGigE1/0/34]quit

本例中接口为bridge模式,也可以使用route模式,直接配置IP地址。若是route模式,可忽略步骤2

(2)     VLAN配置IP地址。

设备上配置的IP地址掩码应和采集网卡IP地址掩码一致。

[Device]interface Vlan-interface 11

[Device-Vlan-interface11]ip address 11.1.1.1 29

[Device-Vlan-interface11]quit

(3)     配置OSPF

area中配置网段,以area配置为0,掩码24位为例。

配置OSPFarea值需要与SeerCollector采集器保持一致。请提前规划ospf area和掩码配置。SeerCollector采集器配置详见采集器配置

[Device]ospf 57

[Device-ospf-57]area 0

[Device-ospf-57-area-0.0.0.0]network 11.1.1.0 0.0.0.255

[Device-ospf-57-area-0.0.0.0]quit

[Device-ospf-57]quit

(4)     查看ospf邻居。

[Device]display ospf peer

图77 查看OSPF邻居

 

(5)     设备和采集器成功建立OSPF邻居后,可以在设备上查看到采集器浮动IP的路由。

[Device]display ip routing-table 11.1.1.2

图78 查看采集器浮动IP路由

 

10.3.2  采集器配置

1. 配置采集节点

该章节适用于INT流分析、TCP流分析、UDP流分析等功能。

进入[分析选项>采集管理>采集器管理]页面,单击<增加节点>按钮,新增采集节点。

·     主机IP:采集服务器的管理IP

·     用户名:采集器的用户名

·     密码:采集器的登录密码

图79 增加采集节点

 

2. 配置采集器

进入[分析选项>采集管理>采集器管理>先知采集器>增加采集器]页面,增加采集器。

·     采集器名称:创建采集器的名称

·     部署模式:部署模式可选择单机模式或集群模式

¡     单机模式:采集器不下发ospf协议,设备侧远程镜像的目的地址为数据采集器网口的IP地址,采集器和待纳管设备之间通过静态路由的方式实现路由互通

¡     集群模式:设备侧远程镜像的目的地址为采集器浮动IP地址,采集器和待纳管设备之间通过OSPF协议的方式实现路由互通

·     采集节点:选择已添加的采集器节点,并对已选节点进行网络配置,具体配置请参见节点配置

·     采集器浮动IP地址:交换机远程镜像的目的地址,设备Telemetry Stream目标采集器的IP地址,该IP和采集网卡IP在同一网段,不需要在采集器上进行配置,具体地址请参见组网规划,配置采集器浮动IP之前,需要先进行节点配置,具体步骤参见节点配置,浮动IP地址仅支持在集群模式下配置。

·     ospf area:采集器上OSPF的区域号,和采集网口直连设备的OSPF区域号一致,该参数仅支持在集群模式下配置。

图80 单机采集器配置

 

图81 采集器集群配置

 

3. 节点配置

对已选节点,单击<配置>按钮,在弹出框中进行节点配置。

·     数据上报网口物理IP地址:采集器和分析组件数据通信,为采集器管理IP,具体地址请参见组网规划

·     设备管理网口物理IP地址:对采集器进行远程管理,为采集器管理IP,具体地址请参见组网规划

·     PTP时钟同步网口物理IP地址:采集器之间PTP时钟同步使用的IP地址,需要确保IP所在物理网卡支持PTP功能,为采集器管理IP,具体地址请参见组网规划

·     数据采集网口物理IP地址:采集交换机的业务报文,采集网卡对应的IP,具体地址请参见组网规划

·     数据采集网口掩码:采集网卡IP的掩码,具体地址规划请参见组网规划,采集器上ospf路由配置也使用该掩码

图82 节点配置

 

10.3.3  流分析页面配置

1. 应用配置

请参见应用配置章节。

2. 主机管理

进入[分析选项>资源管理>资产管理>主机管理]页面,根据实际应用场景选择从控制器同步主机或分析组件通过流自动发现主机,若选择分析组件发现主机,需要设置主机发现地址范围。

·     自动发现:设置主机发现地址范围

图83 设置主机发现范围

 

3. 应用集群配置

进入[分析选项>全局配置>应用集群配置]页面,根据实际应用场景设置需要配置应用集群。

设置:设置应用内集群IP地址范围

图84 设置应用内集群IP地址范围

 

10.3.4  开启解析任务

进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。

图85 启动TCP流解析任务

 

若需要使用Telemetry stream技术,需要在“分析任务”区域额外启动IntNetconf资源解析任务。

图86 启动IntNetconf资源解析任务

 

10.3.5  结果展示

进入[健康分析>流分析>TCP流分析]页面,查看TCP流分析结果。从Fabric、主机、应用、会话等不同维度进行统计分析。

·     Fabric概览数据,包括Fabric的数量、主机数、时延、建连数等信息。此外还有建连趋势图、链路时延统计、Fabric间会话交互、Fabric等信息。单击Fabric列表,可以进入到Fabric的详情页面,详细展示了该Fabric的统计信息。

·     主机、应用、会话页面,从不同维度对网络内的流量进行统计分析。包括了Top10建连失败数(失败率)、应用事件、会话统计(会话详情)等详细信息,以及应用、会话相关预测数据。

图87 TCP流分析

 

图88 主机页面

 

图89 应用页面

 

图90 会话页面

 

10.4  注意事项

TCP流分析页面的数据展示取决于资产是否被添加到具体的逻辑区域。如果资产是从控制组件同步的,它们的逻辑区域信息将自动同步;如果资产是手动添加或通过Excel导入的,则需提前在区域管理中创建逻辑区域并将资产关联到该区域。

 


11 不合规分析

不合规流量分析功能通过采集网络设备上TCP流量,结合配置的流量交互合规规则,对时间段内的不合规TCP流量进行分析。

Syn Flood攻击分析功能通过采集网络设备上TCP流量,结合配置的攻击会话数阈值和建连失败率阈值 ,对时间段内的超出阈值的TCP流量进行分析。

11.1  配置流程

图91 配置流程图

 

11.2  组网规划

请参见组网规划章节。

11.3  配置步骤

11.3.1  设备侧配置

请参见设备侧配置章节。

11.3.2  采集器配置

请参见采集器配置章节。

11.3.3  流分析页面配置

1. 应用配置

请参见应用配置章节。

2. 主机管理

请参见主机管理章节。

3. 阈值配置

进入[健康分析>流分析>TCP流分析>阈值配置]页面,操作配置。

·     全局链路时延异常阈值:全局链路时延大于此值则视为异常。

·     全局应用时延异常阈值: 全局应用内时延小于此值时健康度为好,大于等于此阈值并且小于5倍阈值时健康度为一般,大于等于5倍阈值时健康度为差。

·     TCP建连失败率阈值:TCP建连失败率大于等于此值认为TCP响应异常。

·     SYN Flood攻击-TCP连接请求速率阈值: 当某目的主机的TCP连接请求速率达到该阈值时,系统识别为SYN Flood攻击。

图92 阈值配置

 

4. 规则配置

TCP不合规规则配置用于判断TCP流量是否合规,系统通过[健康分析>流分析>TCP流分析>规则配置]页面,创建流量交互合规规则,配置规则名称、源IP和源端口,目的IP和目的端口以及是否允许互访等配置。

·     规则名称:填写规则名称

·     交互合规约束:选择“源对象不允许访问目的对象”

·     源对象和目的对象:可以通过选择应用选择已经配置的应用,也可以自定义IP信息。

图93 规则配置

 

11.3.4  配置解析任务

(1)     进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。

图94 启动TCP流解析任务

 

(2)     进入[分析选项>任务管理]页面,在“分析任务”区域启动SynFloodAttack流处理任务。

图95 启动SynFloodAttack流处理

 

(3)     进入[分析选项>任务管理]页面,在“分析任务”区域启动Illegal不合规流量分析任务。

图96 启动illegal不合规流量分析任务

 

11.3.5  结果展示

进入[健康分析>流分析>TCP流分析>不合规分析]页面,查看不合规分析结果。

·     不合规流量页面包括不合规会话数统计、受影响的应用数、不合规会话趋势统计、不合规主机分布,以及规则命中会话数热力图。选择规则命中会话数分布热力图中的某个点进行下钻,可以看到规则详情、不合规的会话趋势、建连失败率、Top10不合规会话的IP会话信息。

图97 不合规分析

 

图98 规则命中会话热力图

 

图99 点击热力图下钻

 

·     SYNFlood页面,可以查看被攻击的主机数、主机被攻击趋势图、应用被攻击趋势图、攻击对象的分布、以及原始问题列表。单击原始问题列表,可以展示被攻击主机详情,包括攻击的基本信息、分析结论、以及IP会话列表。

图100 SYNFlood信息1

 

图101 SYNFlood信息2

 

11.4  注意事项

无。

 


12 应用健康度

12.1  配置流程

请参见配置流程章节。

12.2  组网规划

请参见组网规划章节。

12.3  配置步骤

12.3.1  设备侧配置

请参见设备侧配置章节。

12.3.2  采集器配置

请参见采集器配置章节。

12.3.3  应用健康度页面配置

1. 应用配置

请参见应用配置章节。

2. 主机管理

请参见主机管理章节。

12.3.4  开启解析任务

进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。

图102 启动TCP流解析任务

 

12.3.5  结果展示

(1)     进入[健康分析>应用分析>应用健康度]页面,查看应用健康度结果。包括应用健康度趋势、应用Top10信息统计。

图103 应用健康度

 

(2)     单击应用下钻到应用详情的概览页面。

图104 应用详情

 

12.4  注意事项

无。

 


13 事件分析

事件分析主要分析网络事件。网络事件页面展示用户所选时间内,系统中发生问题基于各设备类型的统计,通过对问题的逐步细化,最终展示都有哪些设备发生此类问题。

13.1  配置流程

13.1.1  网络事件流程

请参见配置流程章节。

13.2  组网规划

请参见组网规划章节。

13.3  配置步骤

13.3.1  网络事件配置

请参见配置步骤章节。

13.3.2  结果展示

进入[诊断分析>事件分析]页面,查看事件分析结果。事件分析包括了网络事件和应用事件,且分别进行了分类统计、展示。

网络事件中,“统计”页签下,展示了该事件历史发生的趋势信息;“影响分布”页签下,展示了该事件影响的设备,单击设备名称,可以展示事件发生的时间点,以及设备部分详情信息。

图105 事件分析

 

13.4  注意事项

无。

 


14 UDP流分析

UDP流分析页面展示系统中设备的流量统计信息。其中流量相关的饼图支持点击跳转到相应的设备/会话列表,进行查看具体信息。

14.1  配置流程

图106 配置流程图

 

14.2  组网规划

请参见组网规划章节。

14.3  配置步骤

14.3.1  设备侧配置

请参见设备侧配置章节。

14.3.2  采集器配置

请参见采集器配置章节。

14.3.3  流分析页面配置

请参见应用配置章节。

14.3.4  配置解析任务

请参见开启解析任务章节。

14.3.5  结果展示

进入[健康分析>流分析>UDP流分析]页面,查看UDP流分析结果。UDP流分析,按设备、源主机、目的主机进行了流量统计,以及设备列表、会话列表。

单击雷达图上的设备或者主机,可以和设备列表或者会话列表联动,展示该设备或会话的详情。

图107 UDP流分析

 

图108 设备列表

 

图109 会话列表

 

14.4  注意事项

Telemetry streamERSPAN不能同时配置。

设备侧配置ACL规则需要匹配UDP,例如rule permit udp

·     如果udp数据较多,需要配置具体的source或者destination等进行过滤,举例如下:

[Device] acl advanced name acl_test

[Device-ipv4-adv-acl_test] rule permit udp source 1.1.1.0 0.0.0.255 destination 2.2.2.0 0.0.0.255

此处IP地址为业务IP,请根据实际情况配置,sourcedestination请根据实际情况选择一种或全部。

·     当使能了Telemetry stream功能时,匹配UDP报文,ACL需要过滤Telemetry的目的端口9995,否则会出现多次镜像。举例如下:

[Device] acl advanced name acl_test

[Device-ipv4-adv-acl_test] rule 0 permit tcp syn 1

[Device-ipv4-adv-acl_test] rule 1 permit tcp ecn 3

[Device-ipv4-adv-acl_test] rule 5 permit tcp fin 1

[Device-ipv4-adv-acl_test] rule 10 permit tcp rst 1

[Device-ipv4-adv-acl_test] rule 15 permit udp destination-port neq 9995

#

 


15 INT流分析

通过INT数据能够获取应用流的时延、路径信息,配合应用流的流量数据可以展示某一条流在网络上的路由通道,以及每一跳的时延、流量数据。

15.1  配置流程

图110 配置流程图

 

15.2  组网规划

请参见组网规划章节。

15.3  配置步骤

15.3.1  设备侧INT配置

INT流量监控目前支持的H3C交换机款型有S12500GS6850S6805等设备,其他款型支持情况建议咨询对应产品支持人员。

1. 控制组件增加采集器配置

进入[分析>采集配置>Telemetry>采集器]页面,增加采集器,IP地址为采集器浮动IP

图111 增加采集器

 

2. 首节点INT配置

(1)     增加INT

进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加首节点,并为首节点添加规则。

·     名称:INT设备业务名称

·     交换设备名称:选择交换机设备名称

·     IP地址:作为首节点无需配置

·     源端口号:作为首节点时无需配置

·     采集器名称:作为首节点无需指定

图112 增加INT首节点设备

 

注意

·     当接口角色为尾节点时,源IP地址、源端口、采集器名称三个参数必须同时配置。

·     若增加节点时,没有可供选择的接口时,请参考注意事项

 

(2)     增加节点

单击<增加节点>按钮,进入到INT基础设置界面。

¡     名称:INT接口业务名称

¡     接口名称:选择INT接口,流量的入接口作为INT接口

¡     接口角色:有首节点、中间节点、尾节点三个参数选择,该章节选择首节点

¡     采集率:采样率表示复制后的INT报文数量相对原始报文数量的采样率,采用随机采样方式,按照2的次方分之一采样,例如采样率为10,实际生效的采样率为1/1024;配置为0,表示100%的采样。

图113 增加节点

 

(3)     增加规则

INT基础设置界面,单击<增加规则>按钮。

¡     名称:规则名称

¡     IP版本:选择IP版本,选择项为IPv4IPv6

¡     协议名称:选择协议类型,选择项为TCPUDPICMP

图114 增加规则

 

(4)     通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。

a.     查看下发的ACL策略

[Device] dis acl name ifa_acl

Advanced IPv4 ACL named ifa_acl, 3 rules,

ACL's step is 5, start ID is 0

 rule 0 permit tcp

 rule 1 permit icmp

 rule 2 permit udp

b.     查看报文入接口的inbound方向下发MQC策略

[Device] display qos policy interface

Interface: Twenty-FiveGigE1/0/1

  Direction: Inbound

  Policy: IN_WGE1/0/1

   Classifier: ifa_cla

     Operator: OR

     Rule(s) :

      If-match acl name ifa_cla

     Behavior: ifa_be

      Accounting enable:

        0 (Packets)

      Mirroring:

        Mirror to the ifa-processor sampler ifa_samp vxlan   

c.     查看接口配置

[Device-Twenty-FiveGigE1/0/1]display this

#

interface Twenty-FiveGigE1/0/1

 port link-mode bridge

port link-type trunk

 port trunk permit vlan 1 11 22

 speed 10000

 telemetry ifa role ingress

 qos apply policy IN_WGE1/0/1 inbound

 port link-aggregation group 22

d.     全局下发的用于标识INT设备的设备ID

[Device] telemetry ifa device-id 192.168.12.23   //设备管理IP

e.     查看全局下发的采样器配置,流镜像时引用

[Device] display sampler

 Sampler name: ifa_samp

  Mode: random;  Packet-interval: 10;  IsNpower : Y

3. 中间节点INT配置

(1)     进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加中间节点。

图115 增加INT中间节点

 

(2)     单击<增加节点>按钮,增加节点。

图116 增加节点

 

(3)     通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。

a.     报文入接口配置

[Device] interface Twenty-FiveGigE1/0/1

[Device-Twenty-FiveGigE1/0/1] display this                                             

#                                                                              

interface Twenty-FiveGigE1/0/1                                                

 port link-mode bridge                                                         

 description for_leaf1                                                         

 port access vlan 20                                                           

 speed 10000                                                                   

 telemetry ifa role transit  

#

[Device-Twenty-FiveGigE1/0/1] quit

b.     全局下发的用于标识INT设备的设备ID

[Device] telemetry ifa device-id 192.168.12.29   //设备管理IP

4. 尾节点INT配置

(1)     进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加尾节点。

图117 增加INT尾节点

 

(2)     单击<增加节点>按钮,增加节点。

图118 增加节点

 

(3)     通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。

a.     报文入接口配置

[Device] interface Twenty-FiveGigE1/0/1

[Device-Twenty-FiveGigE1/0/1] display this                                             

#                                                                              

interface Twenty-FiveGigE1/0/1                                                

 port link-mode bridge                                                         

 description for_spine                                                         

 port access vlan 21                                                            

 telemetry ifa role egress

#

[Device-Twenty-FiveGigE1/0/1] quit

b.     全局下发的用于标识INT设备的设备ID

[Device] telemetry ifa device-id 192.168.12.25   //设备管理IP

c.     全局下发的尾节点向采集器发送的INT报文的参数

[Device] telemetry ifa collector source 2.1.1.222 destination 11.1.1.2 source-port

7788 destination-port 5555   //2.1.1.22设备环回口地址,11.1.1.2采集器浮动IP地址

15.3.2  采集器配置

请参见采集器配置章节。

15.3.3  应用配置

请参见应用配置章节。

15.3.4  配置解析任务

进入[分析选项>任务管理]页面,启动INT相关任务:IntNetconf资源解析、应用健康概览解析。

图119 增加INT相关解析任务

 

15.3.5  结果展示

(1)     进入[健康分析>服务质量分析>随流分析]页面,查看INT流分析结果。INT页面展示了应用流数量的趋势、时延Top10、流量Top10、设备时延、数据中心拓扑、INT会话信息等主要信息。

图120 INT流分析

 

(2)     单击会话信息,可以进入到详情页面,展示该应用流的时延趋势、流量趋势(非真实流量)以及应用流路径等信息。

图121 应用流路径

 

图122 时延趋势图

 

图123 流量趋势

 

15.4  注意事项

·     INT不能与telemetry stream同时使用。

·     使用INT功能,设备必须配置PTP时钟同步。配置PTP时钟同步,需要配置主节点和从节点。一般设置Spine为根节点,其他设备为从节点,请根据实际组网进行配置。配置方法见如何配置PTP时钟同步?

·     如果为M-LAG设备,则做M-LAG2两台设备都需添加。接口名称仅支持选择物理接口,若入接口为聚合口,接口名称则选择该聚合口下的所有成员口,并在聚合组上手工配置“undo mac-address static source-check enable”

·     INT接口是聚合成员接口,则需要在控制组件的[自动化>数据中心网络>Fabrics]菜单项下,找到对应的设备,配置设备时,开启“聚合成员接口信息上送控制组件”功能。如下图所示。

图124 聚合成员接口信息上送控制组件

 

·     H3C S6805S6825S9850系列交换机使用INT流分析功能时,需要在设备上配置内部环回功能,配置方法见H3C S6805S6825S9850系列交换机如何配置内部环回功能?。配置环回口时,需要使用空闲的接口,在接口上配置环回功能后,该接口的配置会被清除,同时请注意操作时设备给出的提示信息,避免造成其他影响。为避免出现和控制组件数据不同步,可以在控制组件[自动化>数据中心网络>资源池>设备资源]页面,设备的数据同步详情中,将对应配置添加到审计白名单中。

·     INT流分析功能不支持混合使用国产芯片设备和商用芯片设备,即首节点、尾节点以及中间的节点必须统一采用国产芯片设备或商用芯片设备。其中,国产芯片设备包括S105X-GS12508CRS12516CR125G-EFS9820-4C-GS6805-56HT-GS6805-56HF-GS6850-56HF-GS9850-35H-G系列。

 


16 智能预测

智能预测使用统计学习和机器学习的方法,对时序数据(KPI)进行规律分析,拟合并预测数据的未来走势,生成基线和预测结果以及异常点的定位。

16.1  配置流程

图125 配置流程图

 

16.2  组网规划

请参见组网规划章节。

16.3  配置步骤

16.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

16.3.2  开启分析组件解析任务

请参见开启分析组件解析任务章节。

16.3.3  开启AI预测

进入[预测分析>AI任务管理]页面,选中任务,单击<批量开启>按钮。

图126 开启AI预测

 

16.3.4  结果展示

进入[预测分析>智能预测]页面,查看设备详情,展开预测KPI指标。

智能预测页面,展示了可预测的设备列表。单击“查看详情”,可以进入到设备的详情页面。

详情页面中,展示了设备KPI指标的趋势图,以及未来的预测趋势。

单击“KPI选择”的下拉框,可以查看设备指定指标的趋势及预测数据。

图127 智能预测

 

16.4  注意事项

·     使用智能预测的预测功能之前,需要在[分析>预测分析>AI任务管理]页面下启动对应AI预测任务,AI预测任务每天凌晨1点或3点执行。

·     出于检测精度的考虑,系统需要存有至少一周的数据,才开始进行异常检测。且仅当检测出异常时,折线图中才会显示故障点。

·     KPI折线图表中,实际值曲线为5分钟粒度的实际数据均值,故障点为分析任务推送的瞬时值,故障点和实际值曲线可能不重合。

 


17 健康报告

健康报告展示当前用户已创建的全网健康报告任务列表,列表展示了任务的名称、状态、收件人邮箱、任务添加时间、下次任务执行时间、周期类型。

17.1  配置流程

图128 配置健康报告流程图

17.2  组网规划

请参见组网规划章节。

17.3  配置步骤

17.3.1  配置邮件服务器

(1)     进入[系统>系统配置>邮件服务器配置]页面,输入参数。

¡     邮件服务器地址:输入邮件服务器的域名或IP

¡     邮件服务器端口:输入邮件服务器的端口号

¡     邮件服务器要求安全连接(SSL/TLS):选择安全连接方式

¡     邮件服务器要求身份验证:勾选后,需输入用户名和密码

¡     发件人邮件地址:输入一个可以发送邮件的邮箱

(2)     单击<发送测试邮件>,提示成功,表示配置成功

(3)     单击<确定>,保存配置。

图129 邮件服务器配置

 

17.3.2  创建全网健康报告任务

(1)     进入[分析>健康分析>健康报告]页面,单击<创建任务>按钮。

¡     报告类型:根据实际情况选择日报、周报、月报

¡     开始时间:设置任务开始时间

¡     任务名称:输入任务名称

¡     失效时间:选择失效时间,失效时间不配置则永不失效

¡     区域范围:全部区域或指定逻辑区域

¡     邮箱:输入接收报告的邮箱,单击<增加>按钮

(2)     配置完成后,单击<确定>按钮。

图130 创建健康报告任务

 

17.3.3  立即生成健康报告

进入[分析>健康分析>健康报告]页面,单击<立即生成>按钮。

·     报告类型:根据实际情况选择日报、周报、月报、自定义

·     开始时间:自定义选择数据的开始时间

·     结束时间:自定义选择数据的结束时间

·     报告统计区域:选择统计区域,可选所有区域或指定逻辑区域

·     选择生成方式

¡     下载附件:选择下载附件,单击<确定>,浏览器下载健康报告附件

¡     邮箱:选择邮箱,输入邮箱地址,单击<增加>按钮,再单击<确定>按钮,健康报告生成后立即发送邮箱

图131 立即生成健康报告

 

17.3.4  结果展示

·     健康报告可以周期性自动生成,也可以单击页面的<立即生成>按钮,生成健康报告,通过下载或者邮箱可以获取到健康报告。

·     健康报告的内容,包括了资源概览、异常分析概览、健康度的详情、应用分析、变更分析、全网问题总览等内容。

图132  健康报告

 

17.4  注意事项

·     邮件服务器地址如果是域名模式,需要在部署统一数字底盘中配置DNS服务器,或者在部署后登录Installer平台,进入[部署>集群>集群参数]页面,修改DNS服务器。

·     立即生成的报告如果选择下载附件方式,需要设置浏览器允许弹出窗口。

 


18 RoCE网络分析业务

RoCERDMA over Converged Ethernet)是一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议。当前支持Roce网络分析功能的设备有H3C交换机S6850-56HF/S9850-32H/S9825-64D/S9855-48CD8D/S9855-24B8D/S9820-8C等系列以及Mellanox型号为mlx4mlx5网卡的服务器。具体支持情况和软件版本建议咨询对应设备侧支持人员。

Roce网络分析从会话、流、服务器、集群等维度,展示基于RDMA的服务器流分析。默认展示最近24小时内的各项指标变化趋势,可以通过时间选择器来调整时间范围,最多可查看最近15天的数据。

18.1  配置流程

图133 配置流程图

 

18.2  组网规划

请参见组网规划章节。

18.3  配置步骤

18.3.1  交换机配置

1. 基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

2. Roce网络配置

(1)     PFC配置

¡     PFCwred配置

[Device]qos wred queue table QOS-EGRESS-100G-PORT

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 0 low-limit 1000 high-limit 131072 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 1 low-limit 1000 high-limit 131072 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 2 low-limit 1000 high-limit 131072 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 weighting-constant 0

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 ecn

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 ecn

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 0 low-limit 37999 high-limit 38000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 1 low-limit 37999 high-limit 38000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 2 low-limit 37999 high-limit 38000 discard-probability 20

[Device-wred-table-QOS-EGRESS-100G-PORT] quit

¡     接口应用策略

[Device] interface HundredGigE1/0/1

[Device-HundredGigE1/0/1] priority-flow-control deadlock enable

[Device-HundredGigE1/0/1] priority-flow-control enable

[Device-HundredGigE1/0/1] priority-flow-control no-drop dot1p 5

[Device-HundredGigE1/0/1] flow-interval 5

[Device-HundredGigE1/0/1] priority-flow-control dot1p 5 reserved-buffer 17

[Device-HundredGigE1/0/1] priority-flow-control dot1p 5 ingress-buffer static 100//配置静态反压帧门限

[Device-HundredGigE1/0/1] qos trust dscp

[Device-HundredGigE1/0/1] qos wred apply QOS-EGRESS-100G-PORT

[Device-HundredGigE1/0/1] quit

(2)     ECN配置

¡     ECNwred配置

[Device] qos wred queue table aaa

[Device-wred-table-aaa] queue 5 drop-level 0 low-limit 1 high-limit 2 [Device-wred-table-aaa] discard-probability 100

[Device-wred-table-aaa] queue 5 drop-level 1 low-limit 1 high-limit 2 discard-probability 100

[Device-wred-table-aaa] queue 5 drop-level 2 low-limit 1 high-limit 2 discard-probability 100

[Device-wred-table-aaa] queue 5 ecn

[Device] quit

¡     接口下应用策略

[Device] interface WGE1/0/1

[Device-Twenty-FiveGigE1/0/1] qos wred apply aaa

[Device] quit

(3)     gRPC配置

[Device] telemetry

[Device-telemetry] sensor-group evt_SRZRKAS7GR7CM2RQ3IPOLECG7A

[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/portquedropevent

[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/portqueoverrunevent

[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path netanalysis4/rocev2connectionevent

[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path netanalysis4/rocev2statisticevent

[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor-group grp_SRZRKAS7GR7CM2RQ3IPOLECG7A

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path acl/ipv4namedadvancerules

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/bufferusages

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/commbufferusages

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/commheadroomusages

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/ecnandwredstatistics

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/egressdrops

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/ingressdrops

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/pfcspeeds

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/pfcstatistics

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path buffermonitor/portqueconfigurations

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path device/base

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path device/extphysicalentities

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path device/physicalentities

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path device/transceivers

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path ifmgr/ethportstatistics

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path ifmgr/interfaces

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path ifmgr/statistics

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path mqc/globalcategorypolicyaccount

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path mqc/ifcategorypolicyaccount

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path mqc/ifpolicyaccount

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path mqc/rules

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path pfc/pfcports/port

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path pfc/pfcports/port/portnodrops/portnodrop

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path qstat/queuestat

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path route/ipv4routes

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

sensor path wred/ifqueuewreds/ifqueuewred

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]sensor path wred/ifqueuewreds/ifqueuewred/dropparameters/dropparameter

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

destination-group grp_VOXJZRJTRI2BPL6YLRRSMB2AMY

[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]

ipv4-address 192.168.16.100 port 50051

[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]

subscription grp_VOXJZRJTRI2BPL6YLRRSMB2AMY

[Device-telemetry-subscription-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]

sensor-group evt_SRZRKAS7GR7CM2RQ3IPOLECG7A

[Device-telemetry-subscription-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY] quit

[Device-telemetry] sensor-group grp_SRZRKAS7GR7CM2RQ3IPOLECG7A sample-interval 10

source-address 2.1.1.11

[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]

destination-group grp_VOXJZRJTRI2BPL6YLRRSMB2AMY

[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]

quit

[Device-telemetry] quit

(4)     队列长度最小值,最大值,各队列丢包概率

[Device]interface Twenty-FiveGigE 1/0/20

[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 0 low-limit 4000 high-limit 30000 discard-probability 30

[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 1 low-limit 4001 high-limit 30001

[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 2 low-limit 4002 high-limit 30002 discard-probability 2

[Device Twenty-FiveGigE 1/0/20] quit

以上三条配置与交换机配置在端口的qos wred apply冲突,需要按照使用情况来选择;相关内容的展示,是在[网络健康度/队列]页面趋势指标里面的红黄绿三种指标,代表着的是丢弃等级。

(5)     开启RoCE功能

[Device] netanalysis rocev2 mode bidir

[Device] netanalysis rocev2 drop global

[Device] netanalysis rocev2 statistics global

注意

需要注意开启RoCE的命令,与telemetry stream有冲突,功能不能共用。

 

18.3.2  RoCE服务器配置

RoCE功能需要服务器上面特殊网卡的支持,当前使用的是迈络思(Mellanox)的百G网卡。

RoCE服务器在正式使用时,需要经过一系列的配置,具体如下:

1. 服务器基础环境安装

(1)     安装h3linux

具体操作请参见《分析组件安装部署指导》。

(2)     准备好光盘镜像,通过HDM虚拟介质挂载iso

图134 挂载镜像

 

(3)     创建文件夹

mkdir  -p  /mnt

(4)     系统文件挂载

mount /dev/sr0 /mnt

(5)     创建本地路径

mkdir /data/localyum

(6)     复制文件到本地目录

cp –rf /mnt/* /data/localyum

(7)     新建repo文件

cd /etc/yum.repos.d/

(建议先对该目录下的repo文件进行备份)

cp CentOS-Media.repo local_yum.repo

(8)     配置yum文件

vi  local_yum.repo

baseurl换成上面拷贝文件的路径/data/localyumenabled设置为1

图135 配置yum文件

 

(9)     备份base文件

cd /etc/yum.repos.d/

mv CentOS-Base.repo CentOS-Base.repo_bak

(10)     生效yum

yum clean all

yum makecache

yum repolist all

(11)     确认系统rpm

图136 确认系统rpm

 

(12)     yum安装依赖包

yum -y install zlib-devel bzip2-devel

yum -y install  openssl-devel  ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel --skip-broken

yum install createrepo pciutils gcc gcc-c++ flex bison -y

yum install gtk2 atk cairo tcl tcsh tk -y

(13)     安装python

进入/data/localyum/Packages执行rpm安装:

[root@server60 Packages]# rpm -ivh python-libs-2.7.5-76.el7.x86_64.rpm python-devel-2.7.5-76.el7.x86_64.rpm python-2.7.5-76.el7.x86_64.rpm --force

(14)     安装iperf(可选)

为使用iperf工具进行带宽测试,进入/data/localyum/Packages执行rpm安装(可选):

[root@server61 Packages]# rpm -ivh iperf3-*.x86_64.rpm

2. mellanox网卡驱动安装

(1)     下载驱动

https://content.mellanox.com/ofed/MLNX_OFED-4.9-2.2.4.0/MLNX_OFED_LINUX-4.9-2.2.4.0-rhel7.6-x86_64.tgz 

(2)     解压

tar zxvf  https://content.mellanox.com/ofed/MLNX_OFED-4.9-2.2.4.0/MLNX_OFED_LINUX-4.9-2.2.4.0-rhel7.6-x86_64.tgz

进入解压后的目录执行./mlnxofedinstall --add-kernel-support

说明

如果不成功根据提示操作,可以在/tmp/MLNX_OFEX**下获取新的安装包*-ext.tgz,重新解压后,执行安装命令 ./mlnxofedinstall –all

 

(3)     使能驱动

/etc/init.d/openibd restart

systemctl enable openibd

(4)     检查生效情况

#ibdev2netdev             //网卡up表示生效

图137 检查生效情况

 

注意

安装驱动的时候,需要先使用systemctl stop firewalld.service命令关闭防火墙。

 

3. 服务器网卡预配置(以RoCE priority=5为例)

(1)     准备工作

ofed已经安装,并且启动openibdsystemctl status openibd

# mst start

图138 启动

 

(2)     网卡配置TOS(重启失效)

ibdev2netdev    //网卡up表示生效

图139 查看Mellanox网卡

 

配置优先级

mlnx_qos -i enp161s0 -p 0,1,2,3,4,5,6,7

设置RoCE模式是v2

# cma_roce_mode -d mlx5_0 -p 1 -m 2

设置TOS的值

# cma_roce_tos -d mlx5_0 -t 160    1010 0000,前三比特代表0-7,此处1015

设置qos信任模式为dscp

# mlnx_qos -i enp161s0 --trust dscp

(3)     网卡PFC配置(重启失效)

priority=5队列使能PFC

# mlnx_qos -i enp161s0 --pfc 0,0,0,0,0,1,0,0    (分别代表0~7)

(4)     查询生效情况

(5)     查询网卡生效队列与配置队列一致:

图140 查询生效情况

 

(6)     网卡DCQCN配置(重启失效)

基于ECN配置,可先查看,如果是1可不用运行。

# echo 1 > /sys/class/net/enp161s0/ecn/roce_np/enable/5

# echo 1 > /sys/class/net/ enp161s0/ecn/roce_rp/enable/5

(7)     DCQCN配置

# mlxconfig -d /dev/mst/mt4115_pciconf0 -y s ROCE_CC_PRIO_MASK_P1=0x20  (0b00100000=0x20=32)

#mlxconfig -d /dev/mst/mt4115_pciconf0 -y s CNP_DSCP_P1=48 CNP_802P_PRIO_P1=6

(8)     确认配置成功

# mlxconfig -d /dev/mst/mt4115_pciconf0 q | grep 'CNP\|MASK'

查询结果与配置一致:

图141 确认配置

 

(9)     设置TCP流量的ECN使能标记

sysctl -w net.ipv4.tcp_ecn=1

net.ipv4.tcp_ecn = 1

18.3.3  RoCE相关解析任务配置

进入[分析选项>任务管理>分析任务]页面,启动RoCEAnalysis解析任务,如果已经开启该任务,可以忽略该操作。

图142 启动RoCEAnalysis解析任务

 

18.3.4  RoCE网络分析的服务器和集群配置

(1)     增加主机

进入[分析>健康分析>网络分析>RoCE网络分析]页面,单击“服务器”页签下,单击“服务器管理”子页签,单击<添加主机>按钮,添加主机。

进入[分析>健康分析>网络分析>RoCE网络分析]页面,单击“服务器”页签,然后单击“服务器管理”子页签,并单击<添加主机>按钮进行主机添加。

¡     IP:必选,服务器的管理IP

¡     SSH端口:分析组件通过SSH登录业务服务器时使用的端口号,默认为22

¡     密钥登录:除了使用用户名和密码登录外,还可以通过密钥连接分析组件与业务服务器。使用此方法前,需在分析组件的后台生成密钥,并将公钥上传至业务服务器的后台。

¡     操作系统:安装在待添加业务服务器上的操作系统,支持常见的LinuxWindows系统(对于Windows系统,需要手动安装Zabbix Agent,本页面提供了对应的下载链接)。

¡     系统架构:业务服务器系统架构与其操作系统相关的。当前分析组件支持的业务服务器系统中,除Kylin操作系统兼容x86_64aarch64 两种架构,其他操作系统均仅支持x86_64架构。

¡     网卡厂商:当前支持的网卡类型包括Mellanox(迈络思)、Intel(英特尔)和Yunsilicon(云脉)三种。在CentOS操作系统下,这三种网卡均受支持;在Ubuntu操作系统下,支持MellanoxYunsilicon;其他操作系统仅支持Mellanox

¡     用户名:登录服务器的用户名

¡     密码:登录服务器的密码

¡     PFC使能队列:为待添加的业务服务器下发PFC队列配置

¡     优先级信任状态:支持dscppcp两种方式

图143 添加主机

 

(2)     RoCE网络集群配置

进入[分析>健康分析>网络分析>RoCE网络分析]页面,单击“集群”页签,单击“集群管理”子页签,单击<增加>按钮,添加集群。

图144 RoCE网络集群配置

 

18.3.5  会话使能和AI ECN配置

(1)     会话使能

进入[分析>健康分析>网络分析>RoCE网络分析]页面,单击“会话”页签,在页面上方选择一个逻辑区域。在“会话使能”功能区域中选择相应参数后,单击<使能>按钮,即可将相关会话采集配置下发到交换机。

¡     组网模式:当前逻辑区域下,交换机的组网模式。可以选择VLAN或者VXLAN

¡     设备:展示当前逻辑区域内的所有交换机设备。允许在选中的交换机上启用下发会话采集功能。支持全选、多选和单选操作。(注:在QP过滤采集模式下,设备选择不可用,默认启用所有交换机的会话采集功能。

¡     模式:指定交换机上的会话采集方式,包括全部采集(采集交换机上的所有RoCE会话信息),ACL过滤采集(采集交换机上指定ACL规则的RoCE会话,最多支持八个ACL规则,当前ACL仅支持指定源目的IP或网段),QP过滤采集(采集交换机上指定IPQP的对话,使用时需要指定源IP和目的IP,源QP和目的QP),关闭(关闭交换机上的RoCE会话采集使能功能)

¡     模式:指定交换机上的会话采集方式,包括一下几种:

-     全部采集:采集交换机上的所有RoCE会话信息。

-     ACL过滤采集:根据交换机上指定的ACL规则采集RoCE会话,最多支持八个ACL规则。当前ACL规则仅支持指定源目的IP或网段。

-     QP过滤采集:根据交换机上指定的源IP、目的IP、源QP和目的QP,采集指定IPQP的对话。

-     关闭:关闭交换机上的RoCE会话采集功能。

图145 会话使能(1

 

图146 会话使能(2

 

图147 会话使能(3

 

图148 会话使能(4

 

(2)     AI ECN配置

请按以下步骤启用AI ECN水线配置,即可将AI ECN的水线配置命令下发到指定逻辑区域的所有交换机:

a.     进入[分析>健康分析>网络分析>RoCE网络分析]页面。

b.     单击“AI ECN”页签,在页面顶部切换到相应设备的逻辑区域。

c.     选择“接口监控”子页签。

d.     在“AI ECN水线下发使能”区域,选择“启动”并单击<确认>按钮。

e.     单击“选择上传的文件”上传其他AI ECN水线模型文件,即可更新AI ECN的水线配置模型。当前默认使用的是分析组件自带的水线模型。

图149 AI ECN配置

 

18.3.6  一键检测和流量测试配置

(1)     一键检测

进入[分析>健康分析>网络分析>RoCE网络分析]页面,单击“测试工具”页签,单击“一键检测”子页签,单击<配置检查项>按钮,选择要检查的项目,选择完成后单击<确定>按钮。单击<执行检查>按钮,即可启动一键检测任务。

¡     服务器网卡固件版本一致性检测:在当前分析组件环境或所选逻辑区域中,验证RoCE业务服务器上RoCE网卡的固件版本是否达到要求,支持多选。

¡     服务器网卡驱动版本一致性检测:在当前分析组件环境或所选逻辑区域中,验证RoCE业务服务器上安装的RoCE网卡驱动版本是否符合标准,支持多选。

¡     设备无损配置PFC/ECN一致性检测:在当前分析组件环境或所选逻辑区域中,验证交换机上RoCE相关接口的PFC/ECN配置队列是否与设定参数一致,支持多选。这里的RoCE相关接口包括业务服务器连接的Leaf端口,以及LeafSpine的上行端口和SpineLeaf的下行端口。

¡     设备无损队列一致性检测:在当前分析组件环境或所选逻辑区域中,验证交换机上RoCE相关接口的PFCECNHeadroom队列配置是否与设定参数相符,支持多选。

¡     网卡无损配置PFC/ECN一致性检测:在当前分析组件环境或所选逻辑区域中,验证所有RoCE业务服务器的RoCE网卡所配置的PFC/ECN队列是否与设定参数一致,支持多选。

¡     网卡间业务连通性检测:在当前分析组件环境或所选逻辑区域中,验证不同主机间的RoCE网卡是否能够实现互相Ping通,无需输入任何参数。此功能在测试工具的“连通性诊断”页签中展示。

¡     一打一/多打一流量测试检测:通过使用perftestIb_write命令,执行11或多对1的流量测试,以测量环境中的带宽吞吐性能。请注意,一打一和多打一模式不能同时进行,每次检测只能选择其中一种。此功能在测试工具的“流量测试”页签中的一对一和多对一打流模式中展示。

¡     NCCL Test:这是一个用于测试和验证NCCL性能及功能的工具。它主要用于执行各种通信基准测试,评估NCCL在特定硬件配置下的性能。NCC(由NVIDIA开发的高性能通信库)旨在优化和加速多GPU间的集合通信操作。使用此功能时,分析组件需要配备支持NCCL功能的GPU服务器。此功能在测试工具的“NCCL Test”页签中展示。

图150 一键检测配置检查项默认参数配置(1

 

图151 一键检测配置检查项默认参数配置(2

 

(2)     流量测试

本功能主要用于生成符合特定要求的RoCE流量,例如在指定网卡间进行流量测试,或执行一打一、多打一等打流模式。

a.     进入[分析>健康分析>网络分析>RoCE网络分析]页面。

b.     单击“测试工具”页签后选择“流量测试”子页签。

c.     在打流模式中选择“普通”。

d.     选择服务器端网卡和客户端网卡(客户端网卡支持多选,最多八张)。

e.     如果RoCE网卡配置了策略路由,需启用“绑定源IP”选项。

f.     配置持续时间、队列、QP对数和消息长度。

g.     单击<运行>按钮,开始流量测试。

注意:服务端网卡和客户端网卡不能选择同一台服务器上的网卡,否则打流无法启动。

图152 流量测试

 

18.3.7  租户配置

进入[分析>健康分析>网络分析>RoCE网络分析]页面,选择“服务器”页签并选择“租户管理”子页签。单击<新增>按钮,配置租户名称及相应的VNI值后,单击<确认>按钮以创建用于RoCE的租户。

图153 会话使能

 

18.3.8  结果展示

进入[分析>健康分析>网络分析>RoCE网络分析]页面,查看RoCE网络分析结果。

·     概览页面:展示了链路、拓扑、交换机和服务器的RoCE相关数据信息。

图154 RoCE概览

 

图155 交换机详细信息

 

图156 服务器详细信息

 

·     会话列表:采用四元组格式记录会话信息,每个四元组代表一条会话信息,不区分源和目的。会话信息的采集可以通过启用会话采集功能实现,支持全量采集或过滤采集。

图157 会话信息(1

 

图158 会话信息(2

 

·     流页面:采用四元组格式记录流信息,每个四元组代表一条流信息,并区分源和目的。用户可以通过查看路径了解流经过的交换机和服务器详情。通过展开流列表的下拉框,可以查看具体的流路径信息。

图159 流信息

 

图160 流路径信息

 

·     服务器页面:从服务器的角度展示RoCE流量相关统计信息。在统计页面,单击网卡列表数据的下拉框可查看网卡相关数据。服务器管理页面提供了RoCE主机的相关信息,而租户管理页面则展示了租户的详细信息。

图161 服务器统计信息

 

图162 网卡数据

 

图163 主机展示

 

图164 主机详情展示

 

图165 租户数据

 

·     集群页面:网卡按集群分类,以集群维度统计网卡信息。双击任一集群间拓扑图的边缘,可查看该集群的详细统计信息。

图166 集群统计信息

 

图167 单一集群统计信息

 

·     AI ECN:调优列表记录了AI ECN的调整历史,以趋势图形式展示了不同时间点的调优效果,并提供了基于设备进行筛选的功能。

图168 调优列表

 

·     测试工具:该模块集成了多种RoCE相关的测试工具。具体功能如下:

·     一键检测:展示检测结果的记录和详细信息。

·     连通性诊断:显示连通性验证结果。

·     NCCL Test:记录所有NCCL测试的执行结果。

·     流量测试:展示流量测试的记录和相应的趋势图。

图169 一键检测记录

 

图170 一键检测结果详情

 

图171 连通性诊断记录

 

图172 NCCL Test执行记录

 

图173 流量测试执行记录

 

图174 流量测试详情趋势图展示

 

18.4  注意事项

当前,支持RoCE网络分析功能的设备包括以下系列:

·     H3C交换机: S6850-56HFS9850-32HS9825-64DS9855-48CD8DS9855-24B8DS9820-8C等。

·     Mellanox网卡:支持mlx4mlx5mlx6型号。

·     Yunsillicon网卡:支持metaScale-200S型号的服务器。

具体的支持详情和软件版本信息,请咨询相应设备的支持人员。

 


19 NetStream流分析

NetStream技术是一种基于流的统计技术,可以对网络中的业务流量进行统计和分析。NetStream流分析展示在指定时间范围内五元组(源IP、目的IP、源端口、目的端口、协议类型)信息经过的设备、接口、链路等信息。流分析分为应用组、应用、接口、接口组、IP组、主机、会话等维度,从不同维度分别展示流量流入和流出、流量趋势、流量展示列表、流量详情配置流程

19.1  配置流程

图175 配置流程图

 

19.2  组网规划

请参见组网规划章节。

19.3  配置步骤

19.3.1  基础网络配置

请参见配置步骤章节,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

19.3.2  设备侧配置

分析组件支持解析SflowNetstream两种类型的封装报文,建议同一设备配置一种类型上送。

1. 采样比粒度配置

设备采样粒度需要与分析组件一致,分析组件默认为1024,以设备Device为例(进行NetStream流分析的设备都是同样配置)。

[Device] sampler ns mode random packet-interval n-power 10//采样器按照2次方模式采样

2. Netstream配置:

[Device] ip netstream export version 9 origin-as                           //配置netstream版本

[Device] ip netstream export host 191.168.10.10 9996 vpn-instance mgmt    //191.168.10.10为北向业务虚IPvpn-instance需根据实际组网配置

[Device] ip netstream timeout active 1   //配置流的活跃老化时间,推荐配置为1min

在端口上启动NetStream的入方向与出方向的统计功能

[Device] interface WGE1/0/19

[Device-Twenty-FiveGigE1/0/19] ip netstream inbound

[Device-Twenty-FiveGigE1/0/19] ip netstream outbound

[Device-Twenty-FiveGigE1/0/19] ip netstream inbound sampler ns

[Device-Twenty-FiveGigE1/0/19] ip netstream outbound sampler ns

3. Sflow配置

配置sflow Agentsflow Collector信息

[Device] sflow agent ip 55.0.0.15

[Device] sflow collector 1 vpn-instance mgmt ip 40.0.0.10//配置sflow collector,默认端口号为6343

配置Flow采样

[Device]interface Ten-GigabitEthernet2/0/34

[Device-interface Ten-GigabitEthernet2/0/34] sflow flow collector 1

[Device-interface Ten-GigabitEthernet2/0/34] sflow sampling-rate 8192 //配置Flow采样的报文采样率为8192

配置Couter采样

[Device-interface Ten-GigabitEthernet2/0/34] sflow counter interval 120//配置Counter采样的时间间隔为120s

[Device-interface Ten-GigabitEthernet2/0/34] sflow counter collector 1//配置Sflow Counter编号为1

19.3.3  开启分析组件解析任务

进入[分析选项>任务管理]页面,在“分析任务”区域启动NetStream流处理任务,当采样率配置为n-power形式时,需要编辑NetStream流处理任务,将“以2的次方模式采样”参数修改为“yes”。

图176 NetStream解析任务

 

19.3.4  Netstream全局配置

1. 配置应用、应用组

(1)     进入[分析>分析选项>全局配置>应用配置]页面,根据需要配置应用、应用组,如下图所示。

图177 新增应用组1

 

图178 新增应用组2

 

(2)     单击<新建>按钮,在弹出对话框中按需配置相关参数:

¡     名称:填写应用名称(只能包含基础汉字、字母、数字、部分特殊字符,且区分大小写,长度不超过36位)。

¡     曾用名:无需填写。

¡     简称:无需填写。

¡     协议:可以选择“TCP”、“UDP”、“ANY”(ANY表示不区分协议类型)。

¡     单位:选填,按实际需要填写。

¡     分类:选择应用组名称。

¡     级别:可以选择重点、非重点

¡     描述:选填,按实际需要填写。

¡     客户端IP:应用需要匹配的流量源IP,可以填写IPv4地址、IPv6地址。

¡     客户端端口:应用需要匹配的流量源端口。

¡     服务器IP:应用需要匹配的流量目的IP,可以填写IPv4地址、IPv6地址。

¡     服务器端口:应用需要匹配的流量目的端口。

¡     域名/IP:应用的URL信息,可以填写IP地址或者网址。

¡     记录类型:不用填,保持默认

¡     响应时间:保持默认

图179 新增应用

 

2. 配置接口组

(1)     进入[分析>分析选项>全局配置>接口组配置]页面,根据需要配置接口组,如下图所示。单击<新建配置>按钮,在弹出对话框中新增接口组

图180 新增接口组配置

 

(2)     在弹出对话框中按需配置相关参数,如下图所示。

¡     名称:填写接口组名称,必填写。

¡     描述:接口组描述,可不填,按实际需要填写。

¡     设备名称:选择接口需要加入接口组的设备,按实际需要填写。

¡     设备IP:选择接口需要加入接口组的设备,按实际需要填写。

¡     接口名称:选择需要加入接口组的接口,按实际需要填写。

图181 配置接口组参数

 

(3)     配置完成后单击<添加到配置>按钮,完成增加接口组的操作,如下图所示。

图182 接口组

 

3. 配置IP

(1)     进入[分析>分析选项>全局配置>网段配置]页面,根据需要配置IP组,如下图所示。

图183 新增IP组配置

 

(2)     勾选网段,单击<添加>按钮,在弹出对话框中按需配置相关参数:

¡     是否启用:默认是开启状态,保持不变。

¡     网段名称:IP组名称,必填。

¡     链路名称:不用填。

¡     IP地址:填写IP地址范围。

19.3.5  结果展示

进入[分析>健康分析>流分析>Netstream流分析]页面,默认展示接口流量列表。可通过切换页签展示接口、应用组、应用等流量详情,如下图所示。

图184 NetStream流分析页面展示1

 

图185 NetStream流分析页面展示2

 

图186 NetStream流分析页面展示3

 

19.4  注意事项

·     当设备同时支持sFlowNetStream时,建议配置NetStream上送数据,且同一台设备不要同时配置sFlowNetStream

·     在传统二层网络当中,接入设备网关IP地址承载在汇聚设备上,此时设备封装sFlow报文使用的源IP地址为网关IP地址,存在与sFlow Agent IP不一致的情况,需要配置sFlow Source指定封装sFlow报文的源IP地址与sFlow Agent IP一致 。确保sFlow报文送至分析组件后不会被丢弃。

·     Sflow/NetStream与设备侧有些配置存在配置冲突,目前已知有的INT/Telemetry Stream/MOD,详细信息请咨询产品。


20 vSwitch健康监测

vSwitch健康监测从设备维度展示vSwitch设备CPU及内存利用率趋势,从接口维度展示vSwitch接口发送和接收字节速率、发送和接收包速率、发送和接收丢包率、发送和接收错报率,同时展示vSwitch健康状况趋势、vSwitch设备列表和vSwitch设备状况。

20.1  配置流程

图187 配置流程图

 

20.2  组网规划

从控制组件导入vSwitch资产,与控制组件组网一致。

20.3  配置步骤

20.3.1  配置数据源控制组件

进入[分析选项>资源管理>资产管理>数据源管理]页面,增加DC控制组件数据源。

20.3.2  添加vSwitch资产

进入[分析选项>资源管理>资产管理>资产列表]页面,从控制组件导入vSwitch设备。

20.3.3  结果展示

·     [健康分析>网络分析>网络健康度>概览]页面,可查看vSwicth网络健康度情况,包括vSwicth设备健康度趋势,vSwicth设备健康分类展示,以及vSwitch设备列表。

图188 vSwitch健康度

 

图189 vSwitch设备列表

 

·     [健康分析>健康概览>拓扑>物理拓扑]页面,查看vSwicth设备拓扑信息。

图190 vSwitch拓扑

 

·     vSwicth设备列表中,点击设备名称,可以进入详情页面,查看vSwicth设备详情信息。

图191 vSwitch设备详情信息-1

 

图192 vSwitch设备详情信息-2

 

·     [健康分析>网络分析>网络健康度>vSwicth]页面,查看vSwicth详细信息。

图193 vSwitch信息-设备维度

 

图194 vSwitch信息-接口维度

 

 


21 网络路径分析

网络路径分析提供网络中路径和路况的历史回溯和实时监控。一般在应用出现异常或者故障后,需要进行网络定界定位时,可以通过网络路况服务持续观察目标IP对之间的网络路况,并可以通过工具对路径进行排障,识别故障点,用于提升网络运维效率。 根据指定的源IP(非必选)和目的IP,查询路径,并展示路径途径设备信息。用户可以输入IP对信息和源设备信息,点击“确认”展示路径信息。

21.1  配置流程

图195 配置流程图

 

21.2  组网规划

请参见组网规划章节。

21.3  配置步骤

21.3.1  探测目标设备配置

网络路径分析功能使用之前,需要在页面目的IP所对应的目标设备使用ip unreachables enable命令开启设备的ICMP目的不可达报文发送功能。

21.3.2  中间设备配置

在网络路径分析探测过程中,从源IP所在设备到目标设备ICMP报文转发路径经过的中间设备,需要使用ip ttl-expires enable命令开启设备的ICMP超时报文的发送功能

21.3.3  结果展示

进入[健康分析->网络分析->网络路径分析]页面,下拉列表选择待发起探测的源设备,指定源IP和目的IP地址,此处以设备Loopback0地址为源IP和目的IP进行探测。探测成功则展示路径和RTT时延,同时在左下角拓扑概览高亮展示探测设备节点和链路信息。

图196 网络路径分析成功结果展示

 

如果探测失败,前端会提示请求设备超时消息

图197 网络路径分析失败结果展示

 

21.4  注意事项

如果源设备到目的IP的路由出接口绑定VPN实例,或者指定的源IP所在接口绑定了VPN实例,需要输入VRF实例名称才能探测成功。


22 能效分析

22.1  配置流程

23-1 配置流程图

 

22.2  组网规划

请参见组网规划章节。

22.3  配置步骤

22.3.1  添加gRPC采集项

参见配置网络设备章节gRPC采集项的配置,能效分析新增device/chassisdevice/fans采集项。

22.3.2  开启NodeKpiAnalysis解析任务

进入[分析>分析选项>任务管理],查找NodeKpiAnalysis解析任务,启动该解析任务。

图198 NodeKpiAnalysis解析任务

 

22.3.3  能效分析参数配置

进入[分析>能效分析>网络能效分析>参数设置],配置耗电排放因子、树抵消值和电价参数。

图199 能效分析参数设置

 

22.3.4  结果展示

进入[分析->能效分析->网络能效分析->概览],查看指定区域或全部区域的能耗概览数据。

图200 概览页面数据

 

切换到功耗分布页签,查看整机功耗分布趋势图、功耗实际取值面积图和指标趋势列表

图201 整机功耗1

 

图202 整机功耗2

 

 


23 网络拥塞分析

网络拥塞分析支持展示全网设备接口队列发生拥塞次数趋势图和列表展示,同时支持队列拥塞事件告警统计。队列拥塞事件告警涉及调整接收或发送数据缓冲区大小,而数据缓冲区的配置比较复杂,而且对设备的转发功能有重要影响,建议不要在客户实际生产网络中修改数据缓冲区的缺省参数,保持设备推荐的默认参数即可。若客户强烈要求测试此部分功能,建议咨询相关产品专业人士。

23.1  配置流程

图203 配置流程图

 

23.2  组网规划

请参见组网规划章节。

23.3  配置步骤

23.3.1  基础网络配置

[Device] buffer ingress usage threshold slot 1 queue 5 ratio 10//配置全局所有接口5队列的接收缓冲区使用门限值为10%

[Device] buffer egress cell queue 5 shared ratio 10//配置全局所有接口5队列最多可使用的发送数据缓冲区cell资源共享区域大小

[Device] buffer usage threshold headroom slot 1 ratio 10//全局Headroom缓冲区使用门限值

[Device] buffer threshold alarm ingress enable //开启接收数据缓冲区超门限告警功能

[Device] buffer threshold alarm egress enable//开启发送数据缓冲区超门限告警功能

[Device] buffer threshold alarm headroom enable//开启Headroom数据缓冲区超门限告警功能

[Device] buffer apply //应用用户对数据缓冲区所做的配置

23.3.2  添加gRPC采集项

参见配置网络设备章节gRPC采集项的配置,网络拥塞分析需配置4sensor path,分别为buffermonitor/bufferusagesbuffermonitor/commbufferusagesbuffermonitor/commheadroomusagesbuffermonitor/portqueoverrunevent。其中前3项为周期性采集项,建议采集周期1min;最后1项为事件类型,不用配置采集周期。

23.3.3  开启BufferMonitor解析任务

图204 开启BufferMonitor解析任务

 

23.3.4  结果展示

进入[健康分析->网络分析->网络拥塞分析],支持查看指定区域或全部区域下设备的队列拥塞趋势图和列表数据

图205 队列拥塞趋势图和列表

 

切换到队列拥塞事件页签

图206 队列拥塞端口分布和端口列表

 

23.4  注意事项

基础网络配置建议在测试网络中进行,不可直接在客户生产网络中实施。修改数据缓冲区默认参数配置,极大概率影响业务数据报文转发。需在设备侧专业人员指导下进行。


24 业务故障分析

24.1  配置流程

配置流程图

 

24.2  组网规划

请参见组网规划章节。

24.3  配置步骤

24.3.1  基础网络配置

请参见配置步骤章节完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。

24.3.2  设备侧配置

1. TCB配置

请参见TCB配置章节,完成设备TCB配置。

2. MOD配置

请参见MOD配置章节,完成设备MOD配置。

3. ERSPANTelemetry Stream配置

请参见设备侧配置章节,完成设备ERSPANTelemetry Stream配置。

24.3.3  采集器配置

请参见采集器配置章节。

24.3.4  应用配置

请参见应用配置章节。

24.3.5  开启解析任务

1. 启动网络健康度解析任务

请参见开启分析组件解析任务章节。

2. 启动TCP流解析任务

请参见开启解析任务章节。

3. 启动异常分析解析任务

请参见开启分析组件解析任务章节。

4. 按需抓包配置

(1)     进入[分析>分析选项>网络性能诊断配置>参数配置]页面,添加网络性能高级诊断组件。(需要提前安装NPD组件)

图207 网络性能诊断配置参数配置

 

(2)     进入[分析>诊断分析>业务故障推理>故障推理]页面,单击“诊断工具箱”下拉框,选择“配置全流采集器所属区域”。

图208 配置全流采集器所属区域(1

 

图209 配置全流采集器所属区域(2

 

图210 配置全流采集器所属区域(3

 

(3)     进入[分析>诊断分析>业务故障推理>故障推理]页面,单击“诊断工具箱”下拉框,选择“抓包”,进行抓包规则和抓包设置。

图211 选择抓包

 

图212 抓包规则配置

 

图213 增加抓包配置

 

图214 确认下发配置

 

24.3.6  结果展示

(1)     进入[分析>诊断分析>业务故障推理>故障监控]页面,当存在TCP异常会话、MOD丢包、TCB丢包信息时,可以查看指定区域或全部区域下异常会话和异常应用信息。

图215 异常会话统计

 

图216 异常会话TopN和异常会话列表

 

图217 异常应用统计和异常应用TopN

 

图218 异常应用列表

 

(2)     进入[分析>诊断分析>业务故障推理>故障推理]页面,选择时间范围,输入需要排障的IP和端口,单击<分析>按钮,即可开始分析故障信息。单击时间段查看对应时间段分析的结果。单击时间段可以查看该时间段内的分析结果。

图219 故障推理

 

(3)     进入[分析>诊断分析>业务故障推理>故障推理]页面,进行抓包,可以看到按需任务。

(4)     单击按需任务操作列的图标,可以跳转到网络性能高级诊断组件,查看抓包详情信息。

图220 按需抓包任务

 

 


25 FAQ

25.1  125x设备无法通过控制组件下发远程镜像配置,需要手动配置,配置过程示例如下。

(1)     创建业务环回组

service-loopback group 1 type tunnel

(2)     将接口加入到环回组中,注意:端口加入环回组后,所有配置都会清除

interface FortyGigE 1/4/0/1

port service-loopback group 1

All configurations on the interface will be lost. Continue?[Y/N]:y

(3)     创建gre隧道,找一个空闲的隧道ID,源IP使用Loopback0IP(或带内三层可达IP即可),目的IP为采集器采集网卡的IP地址,或采集器浮动IP地址

interface Tunnel1 mode gre

source loopback0

destination 192.8.0.1   #(采集器采集网卡IP地址或采集器浮动IP地址)

(4)     创建镜像监控组,并指定监控端口为上述创建的隧道口

monitoring-group 1

monitoring-port Tunnel 1

(5)     创建ACL规则,规则可根据实际需要配置

acl advanced name erspan_global_acl

rule 0 permit tcp syn 1

rule 5 permit tcp fin 1

rule 10 permit tcp rst 1

(6)     创建流分类,关联ACL规则,匹配方式需要根据现场情况进行配置

traffic classifier cls_erspan

if-match acl name erspan_global_acl inner

if-match vxlan any

(7)     配置流动作,指向上述创建的监控组

traffic behavior be_erspan

mirror-to monitoring-group 1

(8)     创建qos策略,关联上述流分类和流动作

qos policy erspan

classifier cls_erspan behavior be_erspan

(9)     应用qos策略

qos apply policy erspan global inbound

(10)     查看qos策略

dis qos policy global

Direction: Inbound

Policy: erspan

Classifier: cls_erspan

Operator: AND

Rule(s) :

If-match acl name erspan_global_acl

Behavior: be_erspan

Mirroring:

Mirror to monitoring group 1

25.2  H3C S6805S6825S9850系列交换机如何配置内部环回功能?

开启指定接口的内部环回功能。

(1)     进入接口视图。

[sysname] interface interface-type FortyGigE 1/4/0/1

(2)     开启当前接口的内部环回功能。

[sysname-FortyGigE1/4/0/1] telemetry ifa loopback

(3)     退回系统视图。

[sysname-FortyGigE1/4/0/1] quit

25.3  如何配置PTP时钟同步?

配置主节点

(1)     配置通过PTP协议获取系统时间

[Sysname] clock protocol ptp

(2)     配置PTP协议标准

[Sysname] ptp profile 1588v2

(3)     配置时钟节点类型

[Sysname] ptp mode bc

(4)     配置设备所属的PTP

[Sysname] ptp domain 0

(5)     配置时钟优先级

[Sysname] ptp priority clock-source local priority1 0

(6)     在连接的接口上开启PTP

[Sysname -Twenty-FiveGigE1/0/1]ptp enable

配置从节点

(7)     配置通过PTP协议获取系统时间

[Sysname] clock protocol ptp

(8)     配置PTP协议标准

[Sysname] ptp profile 1588v2

(9)     配置时钟节点类型

[Sysname] ptp mode bc

(10)     配置设备所属的PTP

[Sysname] ptp domain 0

(11)     在连接的接口上开启PTP

[Sysname -Twenty-FiveGigE1/0/1]ptp enable

 


26 附录-采用网管的ICC功能完成可视化配置下发

26.1  gRPC配置

进入[自动化>配置部署>配置库>Default Folder]页面,单击<增加>/<手工增加>按钮,增加配置模板

图221 配置库-默认配置模板

 

在弹窗中输入参数:

·     模板名称:输入模板名称;

·     模板类型:选择默认的配置片段;

·     通用设备:非必选项;

·     配置内容:输入需要下发的配置片段。

完成后,单击<确认>按钮。

图222 添加gRPC配置模板1

 

图223 添加gRPC配置模板2

 

图224 添加gRPC配置模板3

 

图225 添加gRPC配置模板4

 

26.2  ERSPAN配置

配置入口参考gRPC配置

图226 ERSPAN配置模板

 

26.3  INT配置

配置入口参考gRPC配置

26.3.1  首节点配置

图227 INT首节点配置模板

 

26.3.2  中间节点配置

图228 INT中间节点配置模板

 

26.3.3  尾节点配置

图229 INT尾节点配置模板

 

26.4  Telemetry Stream配置

配置入口参考gRPC配置

图230 Telemetry Stream配置模板

 

 

新华三官网
联系我们