• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

05-SD-WAN 运维监控部署指导

手册下载

05-SD-WAN 运维监控部署指导-整本手册.pdf  (1.16 MB)

  • 发布时间:2024/12/12 3:03:46
  • 浏览量:
  • 下载量:

 

SD-WAN

运维监控部署指导

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W101-20230908

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 概述

SD-WAN分支方案中,云简网络目前告警监控可以选择如下方案:

·     云简网络作为网管监控平台。

1.1  SD-WAN控制组件与监控设备的对接

SD-WAN控制组件通过WebSocket纳管设备,后续会通过WebSocket通道订阅或轮询设备状态,实现设备自动上报告警或控制组件轮询产生告警。

SD-WAN控制组件所有监控到的告警信息都会通过kafka发送给云简网络平台,由云简网络平台进行统一的告警呈现。

1.2  云简网络告警订阅配置

为了方便网络管理员能及时发现告警,需要将告警信息及时通知运维人员,方便系统维护。目前我司云简网络平台支持通过短信、邮件、微信、企业微信的方式通知管理员。下面就几种配置方式分别作介绍。

1.2.1  配置前提

1. 配置短信网关

登录云简网络平台,进入[网络管理>设置>短信网关]页面,在此页面可以配置短信网关的相关信息。

(1)     购买短信包

点击页面的“亿美官网”链接或者在浏览器中输入网址www.emay.cn至亿美平台购买短信包。

(2)     配置短信网关

点击页面的<新建>按钮,进入短信网关配置页面:

¡     配置短信网关的名称;

¡     输入在亿美平台购买短信包的序列号;

¡     输入在亿美平台购买短信包的序列号Key

¡     输入在亿美平台购买短信包的序列号密码;

¡     输入短信签名;

¡     勾选是否设置为默认短信网关。

点击<确定>按钮完成短信网关的配置。

2. 配置企业微信群机器人

将订阅的告警日志信息推送到指定的企业微信群。

注意

请先在企业微信群内添加机器人,并完成机器人配置。

 

登录云简网络平台,进入[网络管理>设置>第三方推送>企业微信群机器人]页面,添加企业微信群机器人。点击<增加>按钮,设置机器人名称,查看企业微信群机器人Webhook地址并复制到Webhook地址输入框中,点击<确定>按钮,完成添加企业微信群机器人。

3. 配置钉钉群机器人

将订阅的告警日志信息推送到指定的钉钉群组。

注意

请先在钉钉群组中添加机器人,并完成机器人配置。

 

登录云简网络平台,进入[网络管理>设置>第三方推送>钉钉群机器人]页面,添加钉钉群机器人。点击<增加>按钮,设置机器人名称,获取钉钉群机器人Webhook地址并复制到Webhook地址输入框中,配置安全策略信息后,点击<确定>按钮,完成添加钉钉群机器人。

4. 配置飞书群机器人

将订阅的告警日志信息推送到指定的飞书群组。

注意

请先在飞书群组中添加自定义机器人,并完成机器人配置。

 

登录云简网络平台,进入[网络管理>设置>第三方推送>飞书群机器人]页面,添加飞书群机器人。点击<增加>按钮,设置机器人名称,获取飞书群机器人Webhook地址并复制到Webhook地址输入框中,配置安全策略信息后,点击<确定>按钮,完成添加飞书群机器人。

5. 配置指定推送

注意

使用该功能需要用户必须具有企业微信、钉钉或飞书的管理员权限。

 

登录云简网络平台,进入[网络管理>设置>第三方推送>指定推送]页面,配置指定推送。

(1)     企业信息配置

点击“企业信息”页签,进入企业信息配置页面。

获取企业信息:

¡     获取企业微信的企业ID:如图所示,点击“这里”从企业微信获取企业信息的企业ID,跳转至企业微信扫码登录页面,请使用企业微信扫描二维码登录,在“我的企业 > 企业信息”页面获取“企业ID”信息,供后续使用。

¡     获取钉钉的CorpId:如图所示,点击“这里”从钉钉获取企业信息的CorpId,跳转至钉钉扫码登录页面,请使用钉钉扫描二维码登录,在首页中获取“CorpId”信息,供后续使用。

¡     获取飞书的企业编号:如图所示,点击“这里”从飞书获取企业信息的企业ID,跳转至飞书扫码登录页面,请使用飞书扫描二维码登录,在“企业设置 > 企业信息”页面中获取“企业编号”信息,供后续使用。

图1-1 企业信息配置页面

 

添加企业信息配置。在企业信息配置页面,单击<增加>按钮,弹出添加企业信息配置窗口,在此窗口中输入企业名称、获取的企业微信的企业ID/钉钉企业信息的CorpId/飞书的企业编号,选择推送平台,按需填写备注信息,单击<确定>按钮。

(2)     推送对象配置

点击“推送对象”页签,进入推送对象配置页面。

¡     获取推送对象信息。

-     获取企业微信推送对象信息:如图所示,点击“这里”获取企业微信推送对象信息,跳转至企业微信通讯录页面,点击待推送的成员,在成员详情页面获取“账号”信息,供后续使用。

-     获取钉钉推送对象信息:如图所示,点击“这里”获取钉钉推送对象信息,跳转至钉钉通讯录页面,点击“部门人员”下待推送的成员,获取其“员工UserID”,供后续使用。

-     获取飞书推送对象信息:如图所示,点击“这里”获取飞书推送对象信息,跳转至飞书成员与部门页面,点击“成员”下待推送的成员姓名链接,在成员详情页面获取其“用户ID”,供后续使用。

¡     推送对象配置

 

添加推送对象。在推送对象配置页面,单击<增加>按钮,弹出添加推送对象窗口,在此窗口中输入获取到的企业微信“账号”信息/钉钉成员“员工UserID”信息/飞书“用户ID”、姓名,选择用户对应的企业名称,单击<确定>按钮。

(3)     第三方应用管理

点击“第三方应用”链接,进入应用信息管理页面。

¡     获取应用信息。

-     获取企业微信应用信息:如图所示,点击“这里”从企业微信获取应用信息,跳转至企业微信应用页面,点击自建下待推送应用,进入该应用详情页面,获取应用的AgentIdSecret信息,供后续使用。

-     获取钉钉应用信息:如图所示,点击“这里”从钉钉获取应用信息,跳转至应用管理页面,自建应用下,在待推送应用浮出的菜单中选择“设置”,进入应用的凭证与基础信息页面,获取应用凭证信息,包括AgentIdAppSecretAppKey信息。

-     获取飞书应用信息:如图所示,点击“这里”从飞书获取应用信息,在页面企业自建应用列表中下,点击待推送的自建应用,再左侧导航中选择“凭证与基础信息”,在“应用凭证”栏目下获取App IDApp Secret信息。

图1-2 应用信息管理配置页面

 

¡     添加应用信息管理。在应用信息管理页面,单击<增加>按钮,弹出添加应用信息管理窗口,在此窗口中输入应用的名称,选择企业名称后,系统根据选择的企业自动匹配推送平台。

-     企业微信:推送平台为企业微信,需配置获取的AgentIdSecret参数。

-     钉钉:推送平台为钉钉,需配置获取的AgentIdAppSecretAppKey参数。

-     飞书:推送平台为飞书,需配置获取的App IDAppSecret参数。

(4)     绑定推送对象。增加完成后可以在弹窗中单击<绑定>按钮,立即绑定推送对象;或在应用信息管理列表中,点击“绑定”图标,绑定推送对象。

注意

钉钉应用创建完成后,请在钉钉平台待推送应用详情页面“开发管理”页签中添加服务器出口IPIP地址:101.36.161.135

 

1.2.2  配置告警策略

本场景将介绍如何借助亿美短信平台实现告警短信通知。

1. 配置告警转发

(1)     登录云简网络平台。

(2)     选择[网络管理]页签,单击导航树中的[SD-WAN>监控>告警日志>告警订阅]菜单项,单击告警策略名称,进入修改告警策略配置页面,如图所示。

图1-3 修改告警策略配置页面

 

(3)     配置告警策略名称、描述信息

(4)     选择告警方式:

¡     短信告警:此种推送方式需要购买短信包,短信包的购买方式请参见1.2.1  1. 配置短信网关。系统每天针对产生的告警向收件人最多发送50条短信。

¡     微信告警:此种推送方式需要绑定云简网络微信公众号,点击页面的<绑定公众号说明>按钮,然后根据弹出页面的提示步骤完成云简网络微信公众号的绑定。

¡     企业微信告警(机器人):此种推送方式会将告警信息推送到指定的企业微信消息机器人。在消息机器人下拉框中选择需要推送的消息机器人,或点击页面“添加消息机器人”链接添加,添加方式请参见1.2.1  2. 配置企业微信群机器人

¡     钉钉告警(机器人):此种推送方式会将告警信息推送到指定的钉钉消息机器人。在消息机器人下拉框中选择需要推送的消息机器人,或点击页面“添加消息机器人”链接添加,添加方式请参见1.2.1  3. 配置钉钉群机器人

¡     飞书告警(机器人):此种推送方式会将告警信息推送到指定的飞书消息机器人。在消息机器人下拉框中选择需要推送的消息机器人,或点击页面“添加消息机器人”链接添加,添加方式请参见1.2.1  4. 配置飞书群机器人

¡     企业微信告警(定向):此种推送方式会将告警信息推送到指定的企业微信用户。在第三方应用下拉框中选择需要推送的应用,或点击页面“添加第三方应用”链接添加,添加方式请参见1.2.1  5. 配置指定推送

¡     钉钉告警(定向):此种推送方式会将告警信息推送到指定的钉钉用户。在第三方应用下拉框中选择需要推送的应用,或点击页面“添加第三方应用”链接添加,添加方式请参见1.2.1  5. 配置指定推送

¡     飞书告警(定向):此种推送方式会将告警信息推送到指定的飞书用户。在第三方应用下拉框中选择需要推送的应用,或点击页面“添加第三方应用”链接添加,添加方式请参见1.2.1  5. 配置指定推送

¡     邮件告警:此种推送方式会将告警信息推送到账户绑定的邮箱。系统每天针对同一场所产生的告警向该场所的所有收件人共发送50封邮件;针对全部场所产生的告警向所有收件人共发送1000封邮件。特定条件下可能超出限制值。

¡     仅显示,不推送:在告警日志中显示,不进行推送。

(5)     选择推送时间,可以根据自己的实际需求选择。

(6)     选择告警账户,选择需要接收告警信息的账户。

2. 配置告警明细

(1)     登录云简网络平台。

(2)     选择[网络管理]页签,单击导航树中的[消息>告警日志>告警订阅>SDWAN告警]菜单项,单击告警策略名称,进入修改告警策略配置页面,可以配置告警明细。

(3)     对链路告警进行配置:用户可以基于UnderlayOverlay配置是否发送链路告警,如图所示。

图1-4 链路告警配置页面

 

(4)     告警归类:启用告警归类后,用户可以将告警进行归类,减少发送的告警,如图所示。

关键参数说明:

¡     设备下线不发送链路告警:启用后需要配置回溯时间,设备下线后,在回溯时间内,链路的下线告警都不发送。

¡     下线告警容错:启用后设备/链路闪断引发的下线告警不发送,在延时时间之内设备/链路恢复上线则为闪断,非闪断情况下告警将延迟对应时间后发送。

¡     Underlay下线不发送Overlay告警:开关开启后,当Underlay链路下线时,Underlay对应的Overlay链路不会发送任何告警信息。

图1-5 告警归类配置页面

 

(5)     告警阈值配置:配置告警阈值,包括相关告警开关,如图所示。

图1-6 告警阈值配置页面

 

 

1.2.3  全局资源监控总览

进入[SD-WAN>自动化>参数配置>资源池>IP地址池]页面,查看资源使用情况。

图1-7 IP地址池

 

1.2.4  日志信息监控

进入[网络管理>消息>操作日志>用户操作日志]页面,在该页面中可查看和筛选云简网络的操作日志信息。

图1-8 操作日志

 

 


2 告警信息参考

2.1  告警信息下载方式

SD-WAN分支解决方案相关产品的日志信息获取方式如下:

(1)     请访问网址:http://www.h3c.com/cn/Technical_Documents

(2)     选择产品类型以及产品型号,进入产品栏目页面,获取产品的日志信息。

2. 产品日志汇总

表2-1 产品日志汇总表

产品

文档名称

SDWAN方案相关模块

SeerEngine-SDWAN

H3C SeerEngine-SDWAN系统日志信息参考

LINKDEVICEDATABASECONTROLLER

SR6600路由器

H3C SR6600 SR6600-X路由器日志手册

ACLAPRARPBFDBGPDHCPFILTERIPSECLLDPLOGINMFIBNATNETCONFNQANTPOSPFPBRQOSRIPSNMPSYSLOGVRRP

SR6600-X路由器

MSR2600路由器

H3C MSR系列路由器系统日志信息参考

ACLAPRARPBFDBGPDHCPFILTERIPSECLLDPLOGINMFIBNATNETCONFNQANTPOSPFPBRQOSRIPSNMPSYSLOGVRRP

MSR3600路由器

MSR5600路由器

MSR810路由器

 


3 附录

3.1  云简网络告警信息

3.1.1  系统告警简介

当告警系统监测到告警信息满足用户配置的过滤规则或有下级站点上报告警时,系统会产生告警信息。本手册主要介绍系统告警功能的使用方法,并提供告警信息的详细介绍及处理建议,为用户在系统维护时提供参考。

1. 查看SDWAN告警

进入[SD-WAN>监控>告警日志]菜单项,进入SDWAN告警日志界面,可以查看SDWAN告警信息。

告警过滤:通过时间、告警级别、告警解除状态、告警类型、告警场所、告警设备进行筛选,可按需选择需要查看的告警。

图3-1 SDWAN告警

 

2. 处理告警信息

进入[网络管理>消息>告警日志>SDWAN告警]菜单项,进入SDWAN告警界面。在该页面可对告警信息进行处理。

通过告警信息查询条件按钮可对告警进行相应处理,具体操作如下:

·     过滤告警:点开“筛选”后,可以选择筛选条件,单击“确定”按钮,则可以根据筛选条件查询出符合条件的告警信息;默认查询全部告警信息。

·     解除告警:单击<解除告警>按钮,解除告警。

·     删除告警:支持批量删除告警。

·     标为已读:已读的告警,管理员可单击按钮或者<标为已读>按钮标记为已读。

·     导出告警信息:支持批量导出告警或导出所有告警。

¡     单击<导出>按钮,将根据搜索条件过滤后的所有告警信息以表格的形式导出到本地,导出路径默认为浏览器的下载路径。

·     处理告警信息

 

3. 文档使用说明

本文将告警信息按照告警类型分类,以表格的形式对告警信息进行介绍。有关表中各项的含义请参考3-1

表3-1 告警信息表内容说明

表项

说明

举例

告警内容

显示告警信息的具体内容

设备CPU利用率达到阈值$1,当前值为$2

参数解释

按照参数在告警信息中出现的顺序对参数进行解释

参数顺序用“$数字”表示,例如“$1”表示在该告警信息中出现的第一个参数

$1CPU使用阈值

$2:当前CPU使用百分比

告警等级

告警等级

重要

举例

告警信息举例

设备CPU利用率达到阈值85%,当前值为86%

告警说明

解释告警信息生成的原因

设备CPU利用率告警是指设备的CPU利用率达到告警阈值后发送的告警信息;当CPU使用率低于阈值后,告警信息状态变为已恢复。缺省情况下,型号为“MSR”的设备只有重要告警阈值,为99%;其他型号的设备,次要告警阈值为85%,重要告警阈值为90%

处理建议

建议用户应采取的处理措施

若告警长时间未恢复,请联系H3C技术支持工程师

 

3.1.2  告警信息

1. 告警系统侦测到重复事件告警

告警内容

告警系统从$1$2期间连续$3次收到设备$6$5)的事件($4)。

参数解释

$1Fault Start Time

$2Stop Time

$3Times

$4Repeat Event Name

$5Device IP

$6Device Name

告警等级

重要

举例

告警系统从2021-08-25 23:53:492021-08-25 23:53:50期间连续2次收到设备A-lab-HuiJu192.168.54.173)的事件(Cold Start)。

告警说明

告警系统发现故障源重复发送此事件。

处理建议

请查看故障源重复发送此事件的原因。

 

2. 告警系统侦测到未管理设备的事件告警

告警内容

告警系统从$1$2期间连续$3次收到未管理设备的事件。

参数解释

$1Fault Start Time

$2Stop Time

$3Times

告警等级

警告

举例

告警系统从2021-08-25 23:53:492021-08-25 23:53:50期间连续3次收到未管理设备的事件。

告警说明

告警系统接收到大量未管理设备发送的事件。

处理建议

请将相应未管理设备添加到管理系统。

 

3. 告警系统侦测到未知事件告警

告警内容

告警系统从$1$2期间连续$3次收到未知事件。

参数解释

$1Fault Start Time

$2Stop Time

$3Times

告警等级

警告

举例

告警系统从2021-08-25 23:53:492021-08-25 23:53:50期间连续3次收到未知事件。

告警说明

告警系统接收到大量无法识别的事件。

处理建议

请将相应未知事件定义添加到管理系统。

 

4. 告警系统侦测到闪断事件故障

告警内容

告警系统从$1$2期间检测到设备$7$6)上事件($4)与事件($5)连续$3次发生闪断故障。

参数解释

$1Fault Start Time

$2top Time

$3Tmes

$4Flash Event

$5Flash Relative Event

$6Device IP

$7Device Name

告警等级

重要

举例

告警系统从2021-08-25 23:53:492021-08-25 23:53:50期间检测到设备A-lab-HuiJu192.168.54.173)上事件(链路DOWN)与事件(链路DOWN)连续2发生闪断故障。

告警说明

告警系统检测到某事件发生后在短时间内又恢复为原状态。

处理建议

请检测闪断故障是否引起其他业务的异常。

 

5. 下级网管上报告警

告警内容

下级网管站$L上报告警:$4

参数解释

$1Device ID

$2Fault OID

$3POS Info

$4Trap Description

$5Alarm Level

$6Device IP

$7Device Name

$8Serial Number

告警等级

警告

举例

下级网管站172.51.2.6上报告警:轮询发现,接口Ten-GigabitEthernet2/0/14的状态DOWN

告警说明

分级网管结构中下级网管接收到上级网管关注的告警信息将其上报到上级网管。

处理建议

请进入下级网管查看所上报告警设备的信息以便确认故障的根源。

 

6. 下级网管上报恢复告警

告警内容

下级网管站$L上报恢复告警:$4

参数解释

$1Device ID

$2Fault OID

$3POS Info

$4Trap Description

$5Alarm Level

$6Device IP

$7Device Name

$8Serial Number

告警等级

通知

举例

下级网管站172.51.2.6上报恢复告警:轮询发现,接口Ten-GigabitEthernet2/0/14的状态UP

告警说明

分级网管结构中下级网管接收到上级网管关注的恢复告警信息将其上报到上级网管。

处理建议

无需修复。

 

新华三官网
联系我们