• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

AD-Campus 6.5 维护手册-5W101

手册下载

AD-Campus 6.5 维护手册-5W101-整本手册.pdf 86 | AD-NET专用+普通用户(校验合同号)+代理商+代理商星级工程师+H3C员工   (8.47 MB)

  • 发布时间:2024/1/3 0:33:34
  • 浏览量:
  • 下载量:

AD-Campus 6.5

维护手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W101-20231226

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 H3C统一数字底盘··· 1-1

1.1 H3C统一数字底盘部署·· 1-1

1.1.1 统一数字底盘部署需要哪些应用安装包·· 1-1

1.1.2 配置etcd专用磁盘(物理机部署和虚拟机部署均需要配置)·· 1-2

1.1.3 License注册·· 1-2

1.1.4 Matrix平台登录方式·· 1-4

1.1.5 Matrix平台诊断信息如何收集·· 1-5

1.1.6 MatrixV900R001B06D011)之前的版本升级只支持全量升级·· 1-5

1.1.7 没有配置网络直接Begin Installion进行部署如何解决·· 1-6

1.1.8 服务器集群部署主机名不合法如何解决·· 1-7

1.1.9 安装H3Linux时,未正确设置系统的时区,安装完操作系统后,如何配置系统时区为“亚洲/上海”时区?   1-7

1.1.10 统一数字底盘的日志信息如何收集·· 1-8

1.1.11 存在SA场景下升级统一数字底盘E0607之前的版本,SA处于pod处理pending状态·· 1-8

1.1.12 服务器集群异常及恢复注意事项·· 1-8

1.1.13 Spine/Leaf设备在升级软件版本或备份设备配置前,需要在【自动化】>【配置部署】>【部署参数】>VPN实例】中加上vpn-default实例·· 1-9

1.1.14 统一数字底盘上设备软件升级版本需要注意:升级时进行文件传输,tftpserver传输大文件会超时。因为当前暂时不支持传输大文件。·· 1-10

1.1.15 统一数字底盘上升级版本时上传组件包出现磁盘校验失败的情况:·· 1-10

1.1.16 统一数字底盘数据恢复失败(跨版本)·· 1-10

1.1.17 虚拟机部署统一数字底盘注意事项·· 1-10

1.1.18 region id不一致导致恢复失败指导·· 1-10

1.1.19 监控-》网络中设备类型为UNKNOWN,启用监控失败·· 1-13

1.1.20 系统延迟高导致底盘30000页面响应慢或者打不开·· 1-13

1.1.21 升级/部署WSM E6217以及EIA E6602H02版本需要用户手动切换AD-Campus·· 1-13

1.1.22 磁盘利用率异常,需手动清除早期版本安装包·· 1-14

1.1.23 服务器网卡bond无法聚合,接口不断updown· 1-14

1.2 SeerEngine-Campus部署·· 1-15

1.2.1 创建网络中如何选择网卡·· 1-15

1.2.2 创建网络中如何UP网卡·· 1-15

1.2.3 创建网络中VLAN如何填写·· 1-16

1.2.4 虚拟化部署(Vmware ESXi 6.7版本)如何放通所有VLAN· 1-17

1.2.5 服务器物理网卡重启会导致所有容器默认路由丢失·· 1-17

1.2.6 容器内网卡重启会导致容器默认路由丢失·· 1-17

1.2.7 园区网络ED设备和数据中心网络ED设备互联时,如果两者VCF角色相同,会因自动堆叠导致一方重启   1-17

1.2.8 登录License server 1-18

1.2.9 一个License Server不支持多套控制组件同时使用·· 1-18

1.2.10 SeerEngine-Campus业务和统一数字底盘使用不同的网卡部署·· 1-18

1.2.11 物理服务器内存扩容后需修改控制器组件PODLimit·· 1-18

1.3 常用基本命令·· 1-21

1.3.1 Kubectl命令·· 1-21

1.3.2 docker命令·· 1-22

2 AD-Campus业务相关··· 2-1

2.1 设备自动化部署·· 2-1

2.1.1 强密码特性·· 2-1

2.1.2 设备自动化上线前,必须保证恢复出厂配置·· 2-1

2.1.3 如何恢复出厂配置·· 2-1

2.1.4 自动化部署中RR MAC如何填写·· 2-1

2.1.5 自动化上线必须使用vDHCP,自动化模板不允许切换DHCP Server 2-2

2.1.6 RR MAC如何查询·· 2-2

2.1.7 设备序列号如何收集·· 2-3

2.1.8 Access设备级联·· 2-3

2.1.9 Access设备堆叠·· 2-3

2.1.10 Access堆叠不支持BFD MAD·· 2-3

2.1.11 客户端发送STP攻击报文会导致AccessLeaf)上下挂的AP频繁掉线·· 2-3

2.1.12 AccessLeaf)与AP相连的口收到大量广播以及组播报文·· 2-4

2.1.13 设备自动化上线须按逐级的顺序上线·· 2-4

2.1.14 设备版本升级以及支持升级的文件格式·· 2-4

2.1.15 版本升级剩余空间大小·· 2-5

2.1.16 自动化过程中版本升级,一个模板同一时间只能升级一个类型的设备·· 2-5

2.1.17 自动化模板中使能/不使能白名单·· 2-5

2.1.18 设备自动化上线提示白名单检查失败·· 2-6

2.1.19 Spine设备自动化上线后无法获取vsi4094IP地址·· 2-6

2.1.20 Single Leaf模型自动化堆叠后无法获取vsi4094IP地址·· 2-7

2.1.21 如何进行设备替换·· 2-7

2.1.22 自动化部署相关日志如何收集·· 2-8

2.1.23 自动化过程中进程退出如何排查·· 2-8

2.1.24 接口配置未下发排查方法·· 2-9

2.1.25 自动化扩容·· 2-9

2.1.26 自动化部署过程中堆叠失败·· 2-9

2.1.27 自动化部署失败,如何快速定位问题出现在哪一个阶段·· 2-10

2.1.28 设备自动化上线,状态一直处于纳管中·· 2-11

2.1.29 Access堆叠MAD限制·· 2-11

2.1.30 设备拓扑变化的接口配置可能被误删除·· 2-12

2.1.31 自动堆叠不一定选举带宽小的端口为MAD链路·· 2-12

2.1.32 管理网出现短暂环路之后恢复,控制组件界面无法登陆·· 2-12

2.2 设备新自动化部署·· 2-13

2.2.1 设备websocket连接建立失败·· 2-13

2.2.2 自动化拓扑中不显示设备·· 2-13

2.2.3 自动化升级设备软件版本失败·· 2-14

2.2.4 5560X/6520X vxlan模式未修改·· 2-14

2.2.5 堆叠配置失败的可能原因和排查方法·· 2-15

2.2.6 半自动化组网下Leaf/Distribution设备已手工纳管且激活时,提示自动化部署失败,失败原因:SSH连接异常。   2-15

2.2.7 XC TM1 芯片的设备不支持VXLAN特性。·· 2-16

2.2.8 双spine/双leaf组网L3交换机不支持stp ignored配置的解决方案·· 2-16

2.3 设备资源纳管·· 2-17

2.3.1 设备纳管后有配置未下发成功·· 2-17

2.3.2 堆叠分裂后重新自动化,设备无法被纳管·· 2-18

2.3.3 堆叠设备,做主备倒换后,控制组件设备状态Inactive· 2-18

2.3.4 不允许多台控制组件同时纳管同一台设备·· 2-18

2.3.5 纳管已适配的华为设备时,设备状态Inactive· 2-18

2.4 通用策略组·· 2-18

2.4.1 手动创建的通用策略组无法配置系统默认的组策略·· 2-18

2.4.2 修改AAA策略模板后MAC Portal用户认证上线无法成功·· 2-19

2.4.3 设备策略模板802.1x认证方式(LDAP场景)的注意事项·· 2-20

2.5 安全组·· 2-20

2.5.1 私网、安全组配置没有下发设备·· 2-20

2.5.2 安全组已配置子网,但DHCP Server上没有创建子网地址池·· 2-21

2.5.3 安全组子网如何切换DHCP服务器·· 2-21

2.5.4 从网段使用限制·· 2-22

2.6 组间策略·· 2-23

2.6.1 组间策略配置默认全局DenyIT资源访问·· 2-23

2.7 宽带物联·· 2-24

2.7.1 宽带物联终端如何保持长期在线·· 2-24

2.8 设备相关·· 2-26

2.8.1 外联设备配置静态路由·· 2-26

2.8.2 配置IRFMAC永久保留·· 2-26

2.8.3 S5560X/S6520X修改VXLAN模式·· 2-26

2.8.4 SpineLeaf重启后没有EIA服务器或者AccessARP· 2-27

2.8.5 控制组件纳管设备状态为Inactive· 2-27

2.8.6 Fabric互联需要使用单独的出口路由器·· 2-28

2.8.7 M-LAG设备单机情况下设备重启·· 2-28

2.8.8 S5590或者S5590XP,设置system-working-mode expert模式·· 2-28

2.9 防火墙·· 2-29

2.9.1 端口号及业务网段放通·· 2-29

2.9.2 DNS服务器·· 2-29

2.10 用户上线业务·· 2-29

2.10.1 接入用户已创建,认证时提示用户不存在·· 2-29

2.10.2 使用iNode客户端认证上线失败·· 2-31

2.10.3 EIA未部署EAD时,iNode客户端不能配置EAD服务器IP· 2-32

2.10.4 用户上线认证失败可能原因·· 2-33

2.10.5 使用非我司客户端认证上线失败·· 2-33

2.10.6 IP地址绑定失败·· 2-34

2.10.7 静态IP用户上线如何上送IP· 2-35

2.10.8 MAC Portal认证终端无法弹出认证页面·· 2-36

2.10.9 用户上线后获取不到DHCP地址·· 2-46

2.10.10 大量用户上线后,Leaf设备主备倒换,部分用户下线(Online Check·· 2-54

2.10.11 升级matrix主节点时,用户掉线·· 2-55

2.10.12 有用户在线情况下,不允许DHCP Server换绑·· 2-55

2.10.13 特定条件下,Leaf下行口down/up导致业务不通·· 2-56

2.10.14 升级底盘或EIA之前,建议将AAA老化时间间隔设置为1440分钟。升级成功后再修改回缺省值180分钟。防止EIA长时间收不到认证设备发过来的在线用户的计费更新报文,导致EIA上的在线表老化。·· 2-56

2.10.15 升级底盘或EIA之前, 如果启用了策略服务器且使用iNode1x认证,需要在升级前调大心跳间隔时长心跳超时次数,确保“时长 * 次数超过EIA不可用的时间。防止iNode因心跳超时导致终端掉线。·· 2-57

2.10.16 leaf下行口同时配置802.1x认证和mac认证的策略,终端进行mac认证较慢解决方法·· 2-57

2.11 无线业务·· 2-58

2.11.1 无线AP模式切换·· 2-58

2.11.2 无线AP较多时,业务VPN下需要配置路由策略·· 2-58

2.11.3 无线用户的IP发生变化,EIA上需要较长时间才能展示·· 2-59

2.11.4 EIA上无法展示无线用户的IPv6地址·· 2-59

2.11.5 本体AP无法实现自动聚合·· 2-59

2.12 区拓扑·· 2-60

2.12.1 园区拓扑中不显示接口速率·· 2-60

3 DHCP Server 3-1

3.1 我司自研vDHCP Server 3-1

3.1.1 如何登录vDHCP· 3-1

3.1.2 如何查看vDHCP的地址池以及地址分配·· 3-1

3.1.3 如何查看vDHCP主备节点·· 3-2

3.1.4 vDHCP主备地址池不同步·· 3-2

3.1.5 vDHCP不支持多套系统同时纳管·· 3-3

3.1.6 集群环境下,vDHCP只支持高可用方式·· 3-3

3.1.7 vDHCP所在服务器重建/重装后地址池丢失恢复方法·· 3-3

3.1.8 节点服务器下电重启,概率出现操作系统无法回收使用MACVLAN附加网络且子网为IPv6协议栈应用进程,导致MACVLAN附加网络IPv6网卡出现不可用状态,影响vdhcp分配IPv6地址。·· 3-4

3.1.9 vDHCP R1118之前的备份文件恢复到R1118版本操作方法·· 3-5

3.2 微软DHCP Server 3-6

3.2.1 微软DHCP HA服务器时钟差不能超过1分钟·· 3-6

3.2.2 微软DHCP Server上必须创建4094地址池·· 3-6

3.2.3 微软DHCP服务器修改管理员Administrator密码时必须同步修改DHCP plug插件的密码·· 3-6

3.2.4 公共机场景下,必须使用iNode客户端进行认证,不允许使用MAC Portal+认证·· 3-7

3.2.5 微软DHCP Server支持IPv4/IPv6双栈·· 3-7

3.2.6 多隔离域+名址绑定场景不可共用一套微软DHCP Server 3-7

3.2.7 微软DHCP Server单地址池的绑定数量需要小于2000· 3-8

3.2.8 微软DHCP HA环境,控制组件删除纳管时不删除DHCP Server的故障转移关系·· 3-8

3.2.9 微软DHCP HA环境,名址绑定场景,备机故障时,只有主机上可以生成名址绑定记录。24小时后,插件会将绑定表项自动同步到备机。·· 3-8

3.2.10 若组网中存在防火墙,请注意放通下述端口号。·· 3-8

3.2.11 两台服务器的主机名不能相同,否则会影响主备间故障转移关系建立,影响数据同步,两台服务器的主机名也不能与网络中的其他微软DHCP服务器的主机名相同,否则会导致业务异常。·· 3-8

4 SeerAnalyzer 4-1

4.1 grpc enable严禁通过控制组件自定义策略下发·· 4-1

4.2 S5560XS6520X系列设备配套SA限制·· 4-1

4.3 统一数字底盘的E0607之前的版本SA升级需手动添加标签·· 4-1

4.4 部署WSM SeerAnalyzerCloudnet时的注意事项·· 4-1

5 ARP泛洪优化··· 5-1

5.1 开启指定源MAC地址的ARP报文限速功能·· 5-1

5.2 配置广播抑制和未知单播抑制·· 5-1

5.3 开启ARP报文限速功能·· 5-1

 


1 H3C统一数字底盘

说明

本章节的附件不生效,如需获取请联系相关技术人员。

 

1.1  H3C统一数字底盘部署

H3C统一数字底盘与H3LinuxMatrix平台有一定配套关系,请参考统一数字底盘的版本说明书。所有部署相关操作请严格参照《H3C统一数字底盘部署指导》

说明

SeerBlade部署统一数字底盘环境:SeerBlade板卡磁盘没有HA能力。

 

1.1.1  统一数字底盘部署需要哪些应用安装包

安装包名称

功能说明

说明

common_H3Linux-<version>.iso

H3Linux操作系统的安装包

必选

common_PLAT_GlusterFS_2.0_<version>.zip

提供产品内本地共享存储功能

必选

general_PLAT_portal_2.0_<version>.zip

门户、统一认证、用户管理、服务网关、帮助中心

必选

general_PLAT_kernel_2.0_<version>.zip

权限、资源身份、License、配置中心、资源组、日志服务

必选

general_PLAT_kernel-base_2.0_<version>.zip

告警、访问参数模板、监控模板、报表、邮件短信转发服务

必选

general_PLAT_network_2.0_<version>.zip

基础网管(网络资源、网络性能、网络拓扑、iCC

必选

general_PLAT_kernel_region_2.0_<version>.zip

上下级分级管理功能

可选

general_PLAT_Dashboard_2.0_<version>.zip

大屏框架

必选

general_PLAT_widget_2.0_<version>.zip

平台大屏Widget

必选

general_PLAT_websocket_2.0_<version>.zip

南向Websocket功能

必选

ITOA-Syslog-<version>.zip

Syslog相关功能

可选,SA必选

general_PLAT_netconf_2.0_<version>.zip

支持YANG能力

可选

general_PLAT_oneclickcheck_2.0_<version

>.zip

一键巡检

可选

 

1.1.2  配置etcd专用磁盘(物理机部署和虚拟机部署均需要配置)

安装ISO前,需要专用的物理磁盘(单独分区不可以),用于挂载etcd目录。磁盘要求如下:

·     磁盘类型:SSD固态硬盘或7.2K RPM SATA/SAS机械硬盘

·     etcd盘容量:配置RAID后容量50GB及以上

·     挂载路径:/var/lib/etcd

·     备注:物理机部署和虚拟机部署均需要配置专用的etcd磁盘

相关说明:

PLAT 2.0 (E0706)版本开始,etcd允许非独立磁盘部署。推荐安装etcd的磁盘与安装系统及其它组件的磁盘分别对应不同的物理硬盘,若无法满足,则最低配置为7200HDD+1G Raid卡,推荐使用SSD盘。

1.1.3  License注册

说明

·     在控制组件安装部署完后,SeerEngine-CampusEIA统一数字底盘融合,需要进行License注册。License注册前需要搭建License Server并且申请(购买)License

·     系统默认有一个临时License,可进行临时使用。

·     本文只介绍在AD-Campus页面上的License注册,License Server搭建请参考相关的文档,不再赘述。

 

(1)     路径:【系统】 > License信息】,打开License 注册页面。

(2)     系统安装部署后,默认有一个临时License,可进行临时使用,如下图所示。

图1-1 License信息

 

(3)     License Server注册的配置填写如下,填写完后点击【连接】,连接License Server服务器。

¡     IP地址:填写License ServerIP地址,需确保集群的北向IPLicense Server互通;

¡     端口号:5555

¡     客户端名称:adminLicense Server中配置的客户端名称)

¡     客户端密码:admin@123License Server中配置的客户端密码)

图1-2 License server信息

 

(4)     License注册完成后,会列出注册的授权信息,如下图所示:

图1-3 授权信息

 

注意:vDHCP的授权不显示,需要进入license server查看。vDHCP R1114版本不再需要vDHCP授权。

图1-4 授权概览

 

图1-5 客户端连接

 

1.1.4  Matrix平台登录方式

安装完成后,用户使用Chrome浏览器即可访问Matrix平台。登录方式如下,其中IP地址:主机节点IP或集群北向IP地址(部署集群时设置的北向IP

登录网址:https://ip:8443/matrix/ui/,登录帐号/密码:admin/Pwd@12345

1.1.5  Matrix平台诊断信息如何收集

Chrome浏览器输入Matrix平台的GUI登录地址(Matrix平台登录:https://ip:8443/matrix/ui/,登录帐号/密码:admin/Pwd@12345),单击【登录】按钮进入Matrix平台首页。

Matrix平台界面中,单击页面右上角的按钮,在弹出的菜单中单击【导出日志】菜单项即可导出日志到本地

图1-6 导出日志

 

1.1.6  MatrixV900R001B06D011)之前的版本升级只支持全量升级

MatrixV900R001B06D011对应统一数字底盘版本(E0611)之前版本升级只有一个升级模式:全量升级,没有快速升级页面。所以从E0611之前的版本升级到E0611需要选择全量升级方式。

详细升级步骤请参考对应版本的《H3C 统一数字底盘部署指导》文档。

图1-7 升级

 

1.1.7  没有配置网络直接Begin Installion进行部署如何解决

1. 问题现象

安装ISO时,修改Host name后没有点【Configure…】配置下图中的网络配置,直接点击【Done】返回安装信息摘要界面,点击【Begin Installion】进行部署

图1-8 配置

 

2. 解决方法

(1)     修改网卡的配置文件,如下所示,修改网卡配置文件中的BOOTPROTOONBoot参数。

# ifconfig     -----ifconfig命令查看网卡

# cd /etc/sysconfig/network-scripts  --- /etc/sysconfig/network-scripts路径下可以查看到网卡的配置文件

# vi  /etc/sysconfig/network-scripts/ ifcfg-enp61s0f0  ----修改配置文件,网卡配置文件请根据实际情况修改

图1-9 配置文件

 

(2)     重启网卡

# systemctl restart network

1.1.8  服务器集群部署主机名不合法如何解决

1. 问题现象

Matrix平台:【向导】 > 【创建集群】 页面提示“该节点主机名称不合法。

2. 解决方法

故障原因是由于主机名称最长63个字符,仅支持小写字母、数字、连字符和小数点,且不能以连字符、小数点起始或结束。

(1)     远程登录Matrixr平台所在服务器,按主机名命名规范,修改主机名。new-hostname表示新主机名。

[root@sna001 /]# hostnamectl --static set-hostname new-hostname

(2)     重启服务器,使主机名的修改生效。

[root@sna001 /]# reboot –f

1.1.9  安装H3Linux时,未正确设置系统的时区,安装完操作系统后,如何配置系统时区为“亚洲/上海”时区?

可通过在节点上执行“timedatectl set-timezone Asia/Shanghai”命令将系统时区修改为“亚洲/上海”。请在部署集群前修改,部署集群之后不允许修改时间。

可以通过如下命令查看所有可用的时区。

[root@sna001 /]#timedatectl list-timezones

1.1.10  统一数字底盘的日志信息如何收集

统一数字底盘的日志分为操作日志、系统日志和运行日志,具体操作如下:

(1)     在浏览器(如Chrome)中输入统一数字底盘的GUI的登录地址(登录: https://ip:30000/central/ 登录帐号/密码:admin/Pwd@12345),单击【登录】按钮进入首页。

(2)     在统一数字底盘的首页,单击系统,进入日志管理页面。有【操作日志】/【系统日志】/【运行日志】三个页签项,选择其中一个页签,选择组件名称和起止时间,单击【导出】按钮,也可以自定义搜索条件导出指定的日志信息。

图1-10 日志信息

 

1.1.11  存在SA场景下升级统一数字底盘E0607之前的版本,SA处于pod处理pending状态

Matrix的升级策略是将节点从集群删除再重建,会导致其他产品自己打的标签被删除。SA部署节点标签消失,导致pod调度找不到可用节点,所以一直处于pending状态。后续Matrix版本(E0607)会改变标签分配方式,由Matrix统一分配。

规避方式:

出现上述问题之后,在主节点后台执行如下命令:

cd /opt/matrix/app/install/metadata/SA/scripts/

sh -x addLabelNodes.sh

1.1.12  服务器集群异常及恢复注意事项

服务器集群出现异常下电,或者异常主备倒换后:

(1)     先在Matrix平台上查看集群状态是否正常,然后再去【监控】>Pods】中查看所有Pods是否为Running状态

(2)     后台异常Pods状态查询命令:

kubectl get pod -A | grep Running -v

(3)     集群以及Pods都恢复正常,需要等待10min再进行相关组件的部署、升级以及卸载。

后台发Pod异常,endpoint资源为Matrix平台gfs-storage-global-diaglog丢失,以下恢复方法仅供参考:

如何查是endpoint丢失:

出现log对应的podError错误,同时用如下命令查看,发现红色部分gfs-storage-global-diaglog不存在。

[root@m2 ~]# kubectl get ep gfs-storage-global-diaglog -n service-software

NAME                         ENDPOINTS                          AGE

gfs-storage-global-diaglog   20.0.1.2:1,20.0.1.3:1,20.0.1.4:1   36d

kubectl get ep gfs-storage-global-diaglog -n service-software

Error from server (NotFound): endpoints "gfs-storage-global-diaglog" not found

图1-11 POD

 

(1)     进入yaml文件所在目录

cd /opt/matrix/app/install/metadata/UCENTER/kernel/kernel/logs/template/compatibility

(2)     执行生成endpointyaml文件

bash ../../scripts/volume.sh update global-diaglog service-software

(3)     创建endpoint资源

kubectl apply -f gfs-storage-ed-global-diaglog.yaml

1.1.13  Spine/Leaf设备在升级软件版本或备份设备配置前,需要在【自动化】>【配置部署】>【部署参数】>VPN实例】中加上vpn-default实例

图1-12 VPN实例

 

1.1.14  统一数字底盘上设备软件升级版本需要注意:升级时进行文件传输,tftpserver传输大文件会超时。因为当前暂时不支持传输大文件。

·     问题现象:自动化-软件库-导入,选择从设备导入,导入失败,结果为文件传输超时;设备升级失败,提示SNMP操作超时

·     问题产生条件:自动化-软件库-导入,从设备导入,导入大文件。

·     规避措施:尽量避免大文件传输,不支持大文件传输。

1.1.15  统一数字底盘上升级版本时上传组件包出现磁盘校验失败的情况:

·     问题现象:统一数字底盘的部署管理页面上传组件包时提示磁盘校验失败的情况

·     问题产生条件:浏览器的旧缓存里有旧的接口信息,导致出现问题。

·     规避措施:清除浏览器缓存后重新上传规避。

1.1.16  统一数字底盘数据恢复失败(跨版本)

·     问题现象:统一数字底盘跨版本数据恢复失败。

·     问题产生条件:数据备份和数据恢复使用了不同的底盘版本。

·     规避措施:统一数字底盘不支持跨版本数据恢复,请使用数据备份时的版本进行数据恢复。

1.1.17  虚拟机部署统一数字底盘注意事项

·     请勿使用虚拟机快照部署统一数字底盘

·     各组件对虚拟机部署的支持情况、对虚拟化平台和版本的要求及资源配置需求请参考对应解决方案的服务器资源配置指导。

·     在使用VMware管理的虚拟机上部署统一数字底盘和组件时,需要在虚拟机所在的主机上开启网卡混杂模式和伪传输功能;若组件网络中需要划分VLAN,需要将主机网卡的端口属性配置为允许所有VLAN通过。

1.1.18  region id不一致导致恢复失败指导

1. 问题现象:

E0709之前版本(不包含E0709E06XX)备份恢复后页面 网管业务,告警业务,以及kernel业务出现问题。

可按照如下操作排查region id是否一致

查看配置中心k_confcenter_db中的region id值:

mysql -h $(kubectl  get svc mha-mysql -n service-software -o json | jq -r .spec.clusterIP) -uroot -pDB-pwd@123 -D k_confcenter_db -e "select * from tbl_item where itemkey='env.regionid'"

查询结果如下图,值为461666034647052

图1-13 查询结果

 

查看网络资源库netres_db中的region id

查询设备的region id如下图命令:值为:485477333336066,

mysql -h $(kubectl  get svc mha-mysql -n service-software -o json | jq -r .spec.clusterIP) -uroot -pDB-pwd@123 -D netres_db -e "select * from tbl_dev limit 1\G"

图1-14 查询设备

 

查询出来的设备dev_ip要是在本环境纳管的设备,也就是站点信息为local,如下图,如果查询出来的设备IP并非local的设备,可以修改select * from tbl_dev limit 1 "select * from tbl_dev where dev_ip = 'X.X.X.X'重新查询

图1-15 设备信息

 

以上,两条命令查询出来的regin_id需要保持一致,如果不一致则会引发诸多业务问题

2. 涉及版本

E0709以前的E07XX版本都涉及,E06XX版本不涉及

3. 解决方法

只要涉及到kernel组件的卸载重装后的备份恢复都可参考如下文档:《统一数字底盘3+3冷灾备配置指导 V1.1

根据环境需求参考进行恢复,同环境同版本的重装的备份恢复可参考文档中的“3.4 执行备份,3.7执行恢复,3.8 检查恢复结果”(请严格按照顺序执行3.7),正确执行可直接恢复正常。

重要备注:

如果执行“3.7执行恢复时没有按照文档顺序执行,在恢复完成后返回来修改的region_id,这个时候就需要再重启网管,kernel,告警相关pod,重启pod 列表如下:

itom-icc-dm

itom-icc-rs

itom-l2topo-dm

itom-net-res

itom-nettopo-dm

itom-perf-dm

itom-perf-rs

itom-res-dm

itom-res-rs

itom-resdiscover-api

itom-tftpserver-dm

itom-topo-rs

k-collector-rs

itom-icc-ftpserver

itom-resupdate-api

redis-nsm

itom-alarm-dm

itom-alarm-rs

itom-alarm-ui

itom-receiver-dm

k-kernel-rs

k-permission-api

k-reportplat-rs

k-reportplat-ui

k-ures-api

k-wechat-rs

k-wechat-ui

重启以上pod可通过脚本来重启,请按照下述步骤执行脚本12

脚本1:重启网管类pod

(1)     脚本解压缩,全部上传到服务器上

(2)     执行sh ./restart.sh

脚本2:重启kernel,告警类pod

(1)     脚本解压缩,全部上传到服务器上

(2)     执行sh ./restart_kernel_pod.sh

执行脚本完成后再进行“3.8 检查恢复结果”

1.1.19  监控-》网络中设备类型为UNKNOWN,启用监控失败

1. 问题现象

UNIS设备(或者H3C的设备)在监控网络中纳管后,设备详细信息页面显示设备类型为UNKNOWN,同时启动监控失败。

2. 解决方法

设备详细信息页面测试snmp参数(或者调整snmp超时时间后再进行测试),测试成功后,手动执行同步设备操作,读取到正确的设备类型后手动启用监控。

1.1.20  系统延迟高导致底盘30000页面响应慢或者打不开

1. 问题现象

底盘30000页面响应慢或者打不开,重启系统可以恢复。

2. 解决方法

PR/CC在执行时,在特定情况下(与业务场景、软硬件配置均相关)由于系统、阵列卡、磁盘的IO调度算法,有概率会出现阵列卡的PR/CC命令与系统所下发的命令产生一定冲突,导致上层观察到IO延时较大的现象。根据现场实际情况,建议关闭PR/CC功能避免阵列卡与系统的IO冲突造成IO高延时问题。

关闭方法参考附件内容:

1.1.21  升级/部署WSM E6217以及EIA E6602H02版本需要用户手动切换AD-Campus

WSME6217版本上增加了AD-Campus-Standard域,EIAE6602H02版本上增加了Unified Endpoint Service域,因此组件在部署或者升级后可能会出现全域视图,此时需要用户手工在【首页-设置-切换视图】界面点击切换按钮,切换至AD-Campus域。

图1-16 切换视图

 

1.1.22  磁盘利用率异常,需手动清除早期版本安装包

登录matrix页面,在部署应用页面选择早期的安装包进行删除操作。

 

1.1.23  服务器网卡bond无法聚合,接口不断updown

1. 问题现象

服务器网卡组bond后无法聚合,接口不断updown

2. 解决方法

检查bond文件配置,关注如下两个参数设置是否正确(bond的成员口也需要进行检查,按照配置指导逐个参数进行检查)。

通过“vim /etc/sysconfig/network-scripts/ifcfg-bond0”命令创建聚合口bond0(以现场实际bond名称为准),并进入ifcfg-bond0的配置文件增加以下配置,参数均必选,参数取值以实际组网规划为准。

DEVICE=bond0

IPADDR=192.168.15.99

NETMASK=255.255.0.0

GATEWAY=192.168.15.1

ONBOOT=yes

BOOTPROTO=none

USERCTL=no

NM_CONTROLLED=no

BONDING_OPTS="mode=2 miimon=120"

其中,“DEVICE”需与虚拟网卡名称保持一致。“miimon”表示进行链路状态检测的时间间隔。

1.2  SeerEngine-Campus部署

1.2.1  创建网络中如何选择网卡

统一数字底盘与交换机设备的连接方式:三层网络连接。

三层网络连接:指控制组件的管理IP与交换机设备的管理IP不是同一个网段,通过三层路由互通,控制组件可以部署在远端,主要应用于远程或本地(不需要保证控制组件和设备在同一个二层网络域,路由可达即可)。部署时使用一张、两张网卡均可。若使用一张网卡部署,SeerEngine-Campus和统一数字底盘共用该网卡;若使用两张网卡部署,则SeerEngine-Campus部署和统一数字底盘各使用一张网卡。

1.2.2  创建网络中如何UP网卡

SeerEngine-Campus部署时,不管Spine和控制组件之间的连接是使用二层接入方案还是三层接入方案,都需要先在各节点服务器修改网卡配置文件,然后执行ifup ××× 启动网卡。网卡up后,部署配置网络时才能选择主机关联的上行口。

若只执行ifup ××× 启动网卡,则当服务器节点重启后,会出现Campus容器无法创建的现象,原因是由于ifup ×××网卡的配置文件中ONBoot=NO,服务器节点重启后网卡无法UP导致。

解决方法:修改网卡的配置文件,然后ifup ××× 启动网卡。

如下所示,修改网卡配置文件中的BOOTPROTOONBoot参数。

# vi  /etc/sysconfig/network-scripts/ ifcfg-enp61s0f1   ----网卡配置文件名,请根据实际情况修改

图1-17 配置文件

 

[root@node1 ~]# ifup enp61s0f1

注意

不要ifdown网卡,不然会出现默认路由被删除现象,若执行了ifdown命令,则需要通过重启网络service restart network恢复。

 

1.2.3  创建网络中VLAN如何填写

创建网络中有一个VLAN输入框,默认为空,不需要填写。

·     默认为空:服务器发送的报文不带Tag,服务器网卡连接的接入交换机配置成access口。

·     填写VLAN ID:服务器发送的报文携带VLAN Tagpvid设置不能和填写的VLAN一致,不然Tag会被剥掉),服务器网卡连接的接入交换机需配置成trunk口。

图1-18 VLAN

 

1.2.4  虚拟化部署(Vmware ESXi 6.7版本)如何放通所有VLAN

在网络端口组中VLAN ID填写4095表示放通所有VLAN

图1-19 VLAN ID

 

1.2.5  服务器物理网卡重启会导致所有容器默认路由丢失

服务器物理网卡重启,会导致所有容器内的默认路由丢失。在服务器已部署容器的情况下,禁止单独对物理网卡重启。

若已单独重启物理网卡,则需手动重启物理服务器内的所有容器,或重启服务器进行恢复。

1.2.6  容器内网卡重启会导致容器默认路由丢失

容器内网卡重启,会导致容器内的默认路由丢失。 若手动重启了容器内的网卡,则需通过重启容器恢复。(命令:docker restart容器名称)

1.2.7  园区网络ED设备和数据中心网络ED设备互联时,如果两者VCF角色相同,会因自动堆叠导致一方重启

1. 问题现象

园区和数据中心融合部署,且使用自动化场景下,园区网络的ED设备和数据中心网络的ED设备直连时,如果两者VCF角色相同,会因自动堆叠导致一方重启。

2. 解决方法

需要一侧纳管完成后,在这侧的ED设备上手动关闭与另一侧互联端口的LLDP功能,然后再连接到另一端ED设备上。所有设备纳管完成后,关闭数据中心ED设备的自动化功能,同时所有ED设备关闭互联端口的LLDP功能,命令如下:

·     关闭端口LLDP功能:

interface Ten-GigabitEthernet1/2/21

undo lldp enable

·     关闭设备自动化功能:

vcf-fabric underlay pause

1.2.8  登录License server

在浏览器中输入License serverGUI登录地址(格式为:

https://lics_ip_address:port/licsmanager/,如https://172.16.0.227:28443/licsmanager/),回车

后会弹出登录界面。

·     lics_ip_address License server 软件安装所在服务器的IP 地址,如果已配置HA功能,则该地址可以为虚拟IP 地址或主License server IP 地址;

·     port HTTPS 端口号,缺省为28443

·     缺省用户名为admin,密码为admin@123

1.2.9  一个License Server不支持多套控制组件同时使用

一个License Server不支持多套控制组件同时使用。(License Server E11xx版本不支持E12xx版本已经支持)

1.2.10  SeerEngine-Campus业务和统一数字底盘使用不同的网卡部署

问题现象:

统一数字底盘和Campus集群使用不同的网卡部署,统一数字底盘的一个服务器节点网络故障,SeerEngine-Campus页面配置功能不可用

解决方法:

该问题是由于Campus集群独立于统一数字底盘集群,统一数字底盘集群切主或者故障,Campus无法感知导致。当Campus集群的Leader节点刚好和故障的统一数字底盘服务器节点在同一个节点上时,就会出现该问题现象。可通过恢复故障网络并重启故障节点促使控制组件集群切主恢复。

1.2.11  物理服务器内存扩容后需修改控制器组件PODLimit

相关说明:

若物理服务器内存由128G(或者小于128G)扩容到128G以上,必须要修改控制器组件PODLimit值。物理内存大于128G,控制组件的PODLimit值推荐修改为Limits35GiRequests17Gi。则可参考如下方法进行调整。

修改方法:

方法一:前台界面修改(登录matrix页面进行修改):

进入到campus微服务的详情页面,如下图所示:

 

Campus应用下点击配置,配置内存需求和内存限制,请一台一台进行修改,修改完成后pod运行正常后再修改第二台。

 

方法二:通过后台修改:

(1)     进入uc任意节点 /opt/matrix/app/install/metadata/VCFCCampus/campus目录下。

 

(2)     进入campus-1/k8s-resources/目录

 

修改campus1.yaml中的limits. memory值,并保存,并退出。

 

(3)     在当前目录下/opt/matrix/app/install/metadata/VCFCCampus/campus/campus-1/k8s-resources执行如下两组命令:

 

(4)     查看campus1 pod已重建,且运行状态正常。

 

(5)     查看pod limit值已修改完成: kubectl describe pod -n campus campus-1-xxxxxxxxx (POD名称)

 

(6)     参考步骤a-b,修改campus-2campus-3POD 内存limit(若修改campus2campus3 pod进入对应campus-2/k8s-resources/ campus-2/k8s-resources/文件夹作后续操作即可)

非物理服务器内存扩容的场景下,若控制器组件POD内存利用率有超阈值告警,请联系研发进行处理。

1.3  常用基本命令

1.3.1  Kubectl命令

·     查看节点状态

kubectl get node

 

·     查看节点描述信息,能查看到节点的所有信息,包括所有Pod信息等

kubectl describe node *   --------- (*nodename,例如node1)

·     查看所有Pod

kubectl get pod --all-namespaces

 

·     查看所有Pod详细信息

kubectl get pod --all-namespaces –o wide

 

·     查看指定namespacePod,例如base-service

kubectl get pod –n base-service     ---------base-service为指定的namespace

·     查看指定namespacePod详细信息,例如base-service

kubectl get pod –n base-service –o wide    ---------base-service为指定的namespace

·     删除指定namespacePod

kubectl delete pod XXX –n XXX

例如:删除namespacebase-servicenameambassador-rdhrj

[root@node1 ~]# kubectl delete pod ambassador-rdhrj  -n base-service

pod "ambassador-rdhrj" deleted

·     查看多网络的配置名称

kubectl get net-attach-def -n network

 

·     查看指定网络详情

kubectl describe net-attach-def XXX -n network

 

1.3.2  docker命令

使用docker命令进入容器

(1)     查看docker进程,如查询SeerEngine-CampusvDHCP的进程id

docker ps | grep campus/campus        ----查询campusdocker进程

docker ps | grep vdhcp                ----查询vdhcpdocker进程

 

(2)     使用docker命令指定进程id进入容器

docker exec -it 0f973cfc996a bash

 

(3)     查看容器占用cpu/内存

docker stats


2 AD-Campus业务相关

2.1  设备自动化部署

2.1.1  强密码特性

当前配套的SeerEngine-Campus控制组件和交换机支持强密码特性,即要求本地用户的密码满足等保要求(至少10个字符,至少包含数字、大写字母、小写字母和特殊字符中的两种类型,不支持中文,不包含?和空格,不允许包含用户名及用户名的倒序)。

·     如果老的局点采用弱密码,升级到新的配套关系之后,交换机会打印弱密码的信息,不影响具体功能;

·     如果老局点新扩容LeafAccess设备,建议先使用不支持强密码特性的交换机版本进行自动化上线,上线成功后再升级到新的版本。手工上线设备不影响;

·     针对全新自动化上线情况,新配套的控制组件支持修改自动化模板中的本地用户名密码,将其修改为符合等保要求即可。

2.1.2  设备自动化上线前,必须保证恢复出厂配置

设备单机自动化上线,或堆叠,需要保证自动化上线前恢复出厂配置;

2.1.3  如何恢复出厂配置

设备进行自动化部署前必须保证恢复出厂配置,restore factory-default命令恢复设备出厂配置

将设备恢复到出厂状态。

<Sysname> restore factory-default

This command will restore the system to the factory default configuration and clear the operation data. Continue [Y/N]:y

Restoring the factory default configuration. This process might take a few minutes. Please wait..........................................................................................................Done.

Please reboot the system to place the factory default configuration into effect.

2.1.4  自动化部署中RR MAC如何填写

自动化配置的RR MAC输入框内填写Spine设备的桥MAC

Spine为堆叠环境,需要同时填写2Spine的桥MAC

 

Spine模板中的Master Spine MAC需已加入RR MAC中,模板中设置为Master Spine MAC的设备,在Spine设备堆叠时指定为Master设备。

 

2.1.5  自动化上线必须使用vDHCP,自动化模板不允许切换DHCP Server

ADCampus方案规定,设备自动化上线必须使用我司的vDHCP Server,并且不允许切换自动化模板中的DHCP Server。若需切换DHCP Server,请联系H3C工程师。

2.1.6  RR MAC如何查询

Spine设备的桥MAC,可以在设备侧通过命令查看:

·     方法一:通过display device manuinfo命令查看:

[h3c]dis device manuinfo  chassis 1 slot 0    //指定框号或主控板的槽位号                              

Chassis 1:                                                                     

 Slot 0 CPU 0:                                                                 

 DEVICE_NAME          : LSUM1SUPC0                                             

 DEVICE_SERIAL_NUMBER : 210231A4B8H174000229                                   

 MAC_ADDRESS          : 60DA-8309-E000                                         

 MANUFACTURING_DATE   : 2017-04-13                                             

 VENDOR_NAME          : H3C                                                    

[H3C]

                                                                                                 

·     方法二:Probe视图下通过debug stack show memberinfo命令查看:

[H3C-probe]debug stack show memberinfo chassis 1 slot 0   //指定主控板的槽位号

 

=============================================================

           Member Information of STACK Module

=============================================================

MemID:1,  LocalSlotID:0,  Priority:0, Mode:90 

MaxMemNum:4,  MaxPortMemberPort:16,  StackCapability:5 

BridgeMac:60:da:83:09:e0:00    

[H3C-probe]

2.1.7  设备序列号如何收集

设备序列号:填写设备的唯一标识符,可通过以下命令查看,请按要求将SN信息填写到控制组件设备清单中。具体设备属于哪个系列请与相关技术人员核对:

·     框式设备读取框号+主控SN信息:

¡     机框的SN信息收集

display license device-id chassis * 

¡     主控板信息收集(机框中有多块主控板时,多块主控板SN均需要收集)

display license device-id chassis * slot *

·     盒式设备(S6550XE/ S6525XE/6520X/ S5560X系列

display license device-id slot 1

·     盒式设备(S51系列)

display device manuinfo slot 1

2.1.8  Access设备级联

Access设备级联必须使用GE接口进行级联,且限制为两条物理链路互联(老自动化限制,新自动化无此限制)。

2.1.9  Access设备堆叠

Access设备堆叠必须使用10G接口进行连接,并且保证同一角色堆叠的设备为相同类型的设备。5130系列交换机堆叠口不支持跨芯片。具体芯片款型请联系研发咨询。

2.1.10  Access堆叠不支持BFD MAD

目前Access堆叠不支持BFD MAD检测,如果需要,需要手动增加BFD MAD检测。

2.1.11  客户端发送STP攻击报文会导致AccessLeaf)上下挂的AP频繁掉线

如下以Access为例进行介绍

问题现象:

客户端发送STP攻击报文会导致Access上下挂的AP频繁掉线

解决方法:

AccessAP相连的口上开启BPDU过滤功能后,不管此端口是否为边缘端口,端口将不再发送BPDU报文,并忽略接收到的BPDU报文,导致设备无法与对端设备协商STP状态。建议您在执行该命令前,完全了解其对网络产生的影响,或只在边缘端口上配置该命令。

<Sysname> system-view

[Sysname] interface gigabitethernet 1/0/1

[Sysname-GigabitEthernet1/0/1] stp port bpdu-filter enable

If you enable BPDU filter, the port will not send or process BPDUs and thus cannot negotiate the spanning tree protocol status with the peer. Make sure you are fully aware of the impacts of this command. As a best practice, enable BPDU filter only on edge ports.

2.1.12  AccessLeaf)与AP相连的口收到大量广播以及组播报文

如下以Access为例进行介绍

问题现象:

如果从Access上行口收到大量广播和组播报文,由于AccessAP相连的口自动下发的配置为trunk all,会导致AccessAP相连的口也会频繁收到广播以及组播报文。

解决方法:

(1)     修改AccessAP相连的口,只允许安全组VLAN池通过。

局限:如果shutdown此端口,配置会丢失;若安全组VLAN池修改了,也需要用户手动去AccessAP相连的口修改;

(2)     若从Access下连了多台APAccess上行口发送大量组播报文给某个AP用户接收者,那么其他AP也能收到此流量,建议在Access设备上同时开启全局和相应的VLAN下的IGMP Snooping

#开启设备的IGMP Snooping特性#开启设备的IGMP Snooping特性。

<SwitchA> system-view

[SwitchA]igmp-snooping

[SwitchA-igmp-snooping] quit

#把端口GigabitEthernet1/0/1GigabitEthernet1/0/4添加到VLAN中;在VLAN内使能IGMP Snooping,并开启丢弃未知组播数据报文功能。(若3501-4000都有组播报文进来,则这些VLAN都需要使能)

[SwitchA]vlan 3501

[SwitchA-vlan100]port gigabitethernet 1/0/1 to gigabitethernet 1/0/4

[SwitchA-vlan100]igmp-snooping enable

[SwitchA-vlan100]igmp-snooping drop-unknown

[SwitchA-vlan100]quit

2.1.13  设备自动化上线须按逐级的顺序上线

设备自动化上线须按照Spine->Leaf->Access的顺序逐级进行自动化上线,Access级联设备的自动化上线,也须按照先上一级Access自动化上线,再下一级Access自动化上线的顺序,逐级自动化上线。

2.1.14  设备版本升级以及支持升级的文件格式

通过控制组件进行设备版本升级仅支持软件版本(ipe文件)升级,不支持补丁包升级。

设备版本升级有2种升级途径:

·     在自动化模板中指定版本,设备自动化上线过程中进行升级。通过自动化模板升级设备版本,目前只支持同型号设备一起升级,不同型号需要重新选择软件版本进行升级;

·     设备纳管后,通过【自动化】 > 【配置部署】  > 【软件库】路径,指定设备进行升级。

2.1.15  版本升级剩余空间大小

控制组件进行设备版本升级前需要确保设备的剩余空间大于上传的版本文件大小的两倍,否则设备版本无法升级成功。若通过自动化上线进行版本升级,则自动化过程无法完成。(自动化过程加载版本、或者通过控制组件升级版本,目前S7500ES10500设备的部分主控板空间较小(1G),无法满足控制组件对ipe两倍空间的大小要求,而升级失败,后续通过bin包手工升级可以解决该问题。

2.1.16  自动化过程中版本升级,一个模板同一时间只能升级一个类型的设备

设备自动化过程中进行版本升级,一个角色(Spine/Leaf/Access)的模板只能指定一个升级文件。若组网中同一角色的设备有多款型号时,需根据设备型号分批自动化上线,上完一款型号产品后,修改自动化模板的升级文件,再自动化上线另一款型号的产品。

若产品型号和模板中升级文件不一致,则控制组件上一直显示设备状态为“纳管中”,自动化进程无法完成,此时可通过登陆设备串口,在probe视图下,通过view /var/log/fabric.log命令查看自动化进程,会有update_version.pyERROR信息。

[Access]probe                                                                                                                         

[Access1-probe]view /var/log/fabric.log                                                                                                          

………………………………………………………………………………………………………………………………………………………………………………………………………………………………

%Aug  6 08:58:58:304 2021 Access1-T27 PKG/5/PKG_BOOTLOADER_FILE_FAILED: -IPAddr=**-User=**: Failed to executed the boot-loader file command          

2021-08-06 08:45:55,609 url.py[line:62] WARNING tftp download image, require-space be estimated!                                                      

2021-08-06 08:52:30,127 update_version.py[line:201] DEBUG                                                                                            

copy file tftp://100.1.0.100/campus/image/S5130S_EI.ipe to /mnt/flash:/version.ipe success                                                           

2021-08-06 08:52:30,133 update_version.py[line:287] DEBUG                                                                                            

install slot 1 main begin                                                                                                                             

2021-08-06 08:52:33,214 update_version.py[line:297] DEBUG                                                                                             

boot-loader flash:/version.ipe exception: NULL result without error in PyObject_Call                                                                 

2021-08-06 08:52:33,217 update_version.py[line:57] ERROR                                                                                              

The script is running failed!                                                                                                                        

2021-08-06 08:52:33,812 update_version.py[line:45] DEBUG                                                                                             

delete all files

2.1.17  自动化模板中使能/不使能白名单

 

自动化模板中的“使能白名单”选项:

·     是:表示使能白名单。设备自动化上线时需检查设备清单,设备SN号在设备清单中则允许自动化上线,否则设备自动化上线失败;

·     否:表示不使能白名单。设备自动化上线不需要检查设备清单,识别设备配置的VCF角色,根据设备VCF角色获取自动化模板完成自动化上线;

2.1.18  设备自动化上线提示白名单检查失败

1. 问题现象

设备自动化上线反复进行Autoconfig阶段,报INFO: VCF underlay initialization failed. Please check the system logs for detailed information.

 

2. 解决方法

该现象是由于自动化模板中勾选了“使能白名单,而设备自动化上线前没有把设备序列号加入到设备清单中,在设备清单中添加设备序列号,重新自动化上线。

2.1.19  Spine设备自动化上线后无法获取vsi4094IP地址

Spine上线获取不到vsi4094IP地址,可通过以下几种方式排查:

·     检查Spine上行接口,是否下发了如下配置

#                                                                              

interface Ten-GigabitEthernet2/2/0/17                                          

 port link-mode bridge                                                         

 port link-type trunk                                                          

 port trunk permit vlan all                                                    

#                                                                              

 service-instance 4094                                                         

  encapsulation s-vid 4094                                                     

  xconnect vsi vxlan4094                                                       

      

·     检查Spine上行接口连接的交换机,接口配置是否正确,若组网为三层接入且控制组件为R001B01方案发布版本,需在VLAN4094接口下配置dhcp relay的配置,R002B01方案及R003B01及以上发布版本不需要该配置(4094地址为控制组件分配)。

·     Spine的自动化模板中,桥MAC配置是否正确,若桥MAC配置不准确,无法获取vsi4094IP地址

·     Spine的自动化模板中查看上行接口的配置,必须Ten-GigabitEthernet1/2/0/24这种格式,中间不能有任何空格。

 

2.1.20  Single Leaf模型自动化堆叠后无法获取vsi4094IP地址

1. 问题原因

由于自动化堆叠的Master是根据设备桥MAC进行判断,桥MAC大的设备设置为Master。当Single Leaf自动化模板中填写的上行接口为堆叠设备中桥MAC小的设备的接口时,自动化堆叠后会修改该设备MemberID,导致设备获取的上行接口与实际连接接口不一致, IP地址获取失败。

2. 解决方法

修改Single Leaf自动化模板中的上行接口,填写为设备堆叠后Leaf实际的上行接口。

注意

自动化模板中查看上行口的配置,必须Ten-GigabitEthernet1/2/0/24这种格式,中间不能有任何空格。

 

2.1.21  如何进行设备替换

ADCampus六期自动化,目前支持设备的精确替换和异构替换。

·     精确替换就是根据替换设备的配置文件进行精准的替换。支持Master Spine设备的替换以及其他设备的替换,必须保证替换设备和被替换设备是同一类型设备,并且必须保证端口的连接与替换设备相同。

·     异构替换,不要求替换设备必须和被替换设备类型相同。目前故障替换页面中没有提供模糊替换的功能,通过手动配置可支持。由于模糊替换不进行配置文件替换,只替换设备的名称,因此当原设备故障以后,替换设备连线后用原设备的名称进行上线即可。若替换设备自动化上线,则在“设备清单”中设置名称时设置成与故障设备相同的名称;若替换设备手动配置上线,则把设备的Sysname配置成故障设备的Sysname;替换完成后,把故障设备手动删除即可。

路径:【自动化】>【园区网络】>【网络设备】>【其他】>【设备替换】

 

2.1.22  自动化部署相关日志如何收集

·     /var/log/fabric.log记录自动化上线日志

导出方法:probe视图下执行 view /var/log/fabric.log > fabric.log 然后将flash下的fabric.log导出

·     logbuffer导出

用户视图下logfile save 将保存文件导出

·     underlay自动化执行结果

display vcf-fabric underlay autoconfig

·     本地拓扑

probe 视图下执行

display system internal vcf-fabric topoloty

·     设备模板

xxxtemplate文件

2.1.23  自动化过程中进程退出如何排查

自动化进程退出有以下几种情况:

·     升级版本或补丁失败会引起进程退出

确认流程:

a.     查看logbuffer中是否有升级失败的信息

b.     display logbuffer | inc VCF

c.     确认升级失败的原因

d.     查看fabric.log中详细信息

·     进程异常会引起进程退出

确认流程:

查看fabric.log中详细信息

2.1.24  接口配置未下发排查方法

定位流程:

(1)     查看设备本地拓扑,确认邻居角色是否正确

(2)     确认模板文件是否正确

(3)     查看fabric.log对应接口是否存在下发失败日志

(4)     查看logbuffer中是否存在配置回滚或其它来源的undo操作

2.1.25  自动化扩容

2台设备自动化堆叠,第二台设备在距第一台设备上线2小时内上线,视为新的自动化堆叠过程,即后上线的设备有可能被选为Master,存在原来设备降为Standby设备配置丢失的风险。

第一台设备上线超过2小时,第二台设备上线,为自动化扩容。

2.1.26  自动化部署过程中堆叠失败

(1)     查看设备获取的模板角色正确与否;

 

(2)     在设备系统视图下执行,dis lldp neighbor-information list查看lldp邻居信息中是否存在堆叠接口;

 

(3)     在设备系统视图下执行dis max-ecmp-num,查看两台设备max-ecmp-num是否一致。

 

(4)     在设备系统视图下执行dis system-working-mode,查看两台设备工作模式是否一致。(S105系列设备支持该命令)

 

(5)     在设备系统视图下执行dis irf查看MemberID,必须保证加入自动化堆叠的设备MemberID值为1MemberID值非1,则在用户视图下执行restore factory-default恢复出厂配置。

 

2.1.27  自动化部署失败,如何快速定位问题出现在哪一个阶段

(1)     检查组网,确保自动化上线的设备连接的网络正常,与SeerEngine-Campus以及vDHCP服务器互通。

(2)     设备上执行dir,查看根目录下是否存在×××.template判断设备是否从tftp server下载自动化模板成功;

(3)     设备上执行dis int LoopBack 0命令,查看环回口地址是否获取,环回口地址由Spine设备分配;

(4)     若自动化上线的是Spine设备,查看Spine上行接口配置下发情况;

(5)     设备上执行dis vcf-fabric underlay autoconfigure 命令查看设备执行的自动化命令,查看VLAN以及设备接口配置下发情况,查看int vsi4094接口的配置下发以及IP地址获取,以及其他如BGP配置等信息判断自动化过程。

(6)     登录统一数字底盘的设备管理页面,查看设备是否纳管。

(7)     查看对应VLAN1/vsi4094端口,判断设备IP是否固化。

(8)     登录vDHCP查看VLAN1/VLAN4094接口IP地址绑定

2.1.28  设备自动化上线,状态一直处于纳管中

(1)     控制组件上路径:自动化->园区网络->Fabrics->自动化部署->自动化任务运行信息,查看设备的自动化进程

(2)     若自动化失败的原因为“读取设备序列号失败”。

(3)     设备上执行下面两条命令,查看2条命令中查询的设备SN号是否相同。

display device manuinfo chassis * slot *

display license device-id chassis * slot *

(4)     若以上2条命令查询的设备SN号不同,请把查询的设备SN号都加入到控制组件的设备清单中,再重新进行设备自动化上线。

(5)     若以上2条命令查询的设备SN号相同,则请联系相关人员排查分析问题原因

2.1.29  Access堆叠MAD限制

Access堆叠不支持自动化配置BFD MAD检测,如果需要,可以手动增加BFD MAD检测。手动配置步骤:

(1)     设备堆叠成功之后,保证BFD的物理口为down状态,Access堆叠设备在物理接口配置BFD

#

vlan 100      //专用于BFD MAD检测                                                                                                                 

#                                                                                                                                  

interface GigabitEthernet1/0/20                                                                                                    

 port link-type trunk                                                                                                               

 undo port trunk permit vlan 1                                                                                                     

 port trunk permit vlan 100                                                                                                          

 undo stp enable

 stp edged-port     //不配置该命令,控制组件会审计差异                                                                                                                   

 undo lldp enable                                                                                                                   

#

#                                                                                                                                  

interface GigabitEthernet5/0/20                                                                                                     

 port link-type trunk                                                                                                              

 undo port trunk permit vlan 1                                                                                                      

 port trunk permit vlan 100                                                                                                         

 undo stp enable

 stp edged-port     //不配置该命令,控制组件会审计差异                                                                                                                

 undo lldp enable                                                                                                                   

#                                                                                                                   

#                                                                                                                                   

interface Vlan-interface100                                                                                                         

 mad bfd enable                                                                                                                     

 mad ip address 192.168.100.1 255.255.255.0 member 1                                                                               

 mad ip address 192.168.100.5 255.255.255.0 member 5                                                                                

#

(2)     互联BFD物理线,查看BFD MAD状态正常

[5130s-hi-down]disp mad verbose                                                                                                    

Multi-active recovery state: No                                                                                                     

Excluded ports (user-configured):                                                                                                  

Excluded ports (system-configured):                                                                                                

  IRF physical interfaces:                                                                                                          

    Ten-GigabitEthernet1/0/25                                                                                                      

    Ten-GigabitEthernet5/0/25                                                                                                       

  BFD MAD interfaces:                                                                                                              

    Bridge-Aggregation1022                                                                                                          

    Bridge-Aggregation1024                                                                                                         

    GigabitEthernet1/0/2                                                                                                            

    GigabitEthernet1/0/20                                                                                                          

    GigabitEthernet5/0/1                                                                                                            

    GigabitEthernet5/0/20                                                                                                          

    Ten-GigabitEthernet1/0/26                                                                                                       

    Ten-GigabitEthernet5/0/26                                                                                                      

    Vlan-interface100                                                                                                                

MAD ARP disabled.                                                                                                                  

MAD ND disabled.                                                                                                                    

MAD LACP disabled.                                                                                                                 

MAD BFD enabled interface: Vlan-interface99                                                                                        

  MAD status                 : Normal                                                                                              

  Member ID   MAD IP address       Neighbor   MAD status                                                                           

  1           192.168.100.1/24     5          Normal                                                                               

  5           192.168.100.5/24     1          Normal  

2.1.30  设备拓扑变化的接口配置可能被误删除

·     问题现象:设备拓扑变化的接口配置可能被误删除。

·     问题产生条件:通过ADCampus自动化上线的设备,暂停自动化后修改设备的网络拓扑,再打开自动化。

·     规避措施:如果需要变化网络拓扑,需要先打开自动化功能。

2.1.31  自动堆叠不一定选举带宽小的端口为MAD链路

·     问题原因:自动堆叠选择带宽小的端口作为BFD口是有前提条件的,需要该带宽小的端口在堆叠口起来后1分钟内UP。否则随机选择一个互联端口作为BFD口。

·     规避措施:建议停止自动化后手工配置BFD mad口并保存配置

2.1.32  管理网出现短暂环路之后恢复,控制组件界面无法登陆

·     问题产生条件:异常构造管理网出现短暂环路。

·     规避措施:环路恢复后若不能自己恢复可以kubectl delete dnsportal的容器并等其重新拉起后可以恢复

2.2  设备新自动化部署

2.2.1  设备websocket连接建立失败

(1)     检查控制组件WebSocket相关pod

 

(2)     设备是否获取到vlan1地址。

(3)     vlan1获取了byod的地址(级联accessvlan1 macleaf上认证进入了byod用户)

(4)     检查vlan1到底盘北向虚IP通信是否正常。如果通信不正常,请排查路由。

(5)     检查设备当前版本是否支持websocket相关命令。

(6)     自动化模板中填写设备清单时,支持websocket按钮是否选择,设备的SN码填写的和设备上是否一致。

 

2.2.2  自动化拓扑中不显示设备

(1)     设备软件版本升级失败,设备在新自动化的过程中定义了升级设备软件版本,自动化拓扑中需要等到设备软件版本升级完成后才会在拓扑中进行展示。

 

(2)     Websocket连接失败,websocket连接失败可根据2.2.1  设备websocket连接建立失败进行排查。

(3)     Local-user密码不规范(比如复杂度不够)

(4)     SNMP团体字不规范(比如包含&字符)

2.2.3  自动化升级设备软件版本失败

(1)     设备原有版本不支持自动升级

(2)     传输协议没有修改为FTP

图2-1 FTP

 

(3)     上行设备升级完成后重启导致下行设备网络超时,待网络稳定后可以点击重试进行升级。

(4)     设备空间不足,自动化部署升级设备软件需要校验设备空间,设备空间需要是设备软件版本的两倍空间大小。

(5)     监控-网络中存在重复IP,如果有重复的IP地址,删除进行重试。

(6)     整网中STP重新计算导致网络连接失败。

2.2.4  5560X/6520X vxlan模式未修改

1. 问题现象

新自动化上线设备类型为5560X/6520X设备,自动化部署失败,控制器上设备纳管失败,相关vxlan的配置下发失败。

2. 排查手段:

(1)     检查设备上的Switch mode模式是否是vxlan模式

如果设备上的Switch-mode的模式若不是vxlan,请按照步骤(2)进行排查。

 

(2)     在底盘中未定义该设备

 

2.2.5  堆叠配置失败的可能原因和排查方法

(1)     Websocket连接超时。

(2)     叠成员未和上级设备有连线。

(3)     设备不属于一个系列,无法堆叠。

(4)     所选的物理口不支持加入irf port

2.2.6  半自动化组网下Leaf/Distribution设备已手工纳管且激活时,提示自动化部署失败,失败原因:SSH连接异常。

1. 问题现象:

半自动化组网下Leaf/Distribution设备已手工纳管且激活时,进行自动化部署,自动化部署失败,失败原因:SSH连接异常。

 

2.  解决方法

检查设备上local-user下是否配置了service-type http https这条命令。

2.2.7  XC TM1 芯片的设备不支持VXLAN特性。

1. 问题现象:

设备出厂配置上线后,新自动化表现为设备反复自动重启,老自动化表现为设备VXLAN相关配置下发失败。

失败原因:XC TM1芯片的设备不支持VXLAN特性,修改设备专家模式失败。仅TM1.1及以上芯片设备适配AD-Campus方案Spine/Leaf角色。

2. 排查手段:

查询模式命令:display system-working-mode

不支持设备手工配置会打印操作不支持。

[H3C]system-working-mode expert

Do you want to change the system working mode? [Y/N]:y

This operation is not support.

2.2.8  spine/leaf组网L3交换机不支持stp ignored配置的解决方案

问题描述

Spine组网/Leaf组网,服务器和设备之间连接的L3交换机,需支持ECMP功能和stp ignored vlan命令,现场存在部分交换机不支持stp ignored的命令。

解决方案:

针对L3交换机不支持stp ignored命令,可以通过如下配置解决。(双spine/leaf的配置参考基础配置指导,可支持自动化上线和手动纳管)

L3交换机stp相关配置:

stp global enable

stp mode pvst

undo stp vlan 200 to 4000 enable(根据现场需求进行配置,可以将L3上不用的vlanundo

2.3  设备资源纳管

2.3.1  设备纳管后有配置未下发成功

1. 问题现象

登录Campus管理页面,查看设备的数据同步状态,表示有部分配置下发不成功。

图2-2 交换设备

 

2. 解决方法

点击,打开“交换设备数据同步详情页面,先点击【审计】,审计后会把审计的结果通过xml的方式显示,然后点击【数据同步】,同步控制组件和设备不一致的信息,控制组件会把未下发的配置同步到设备。

图2-3 数据同步

 

2.3.2  堆叠分裂后重新自动化,设备无法被纳管

1. 问题现象

自动化上线设备堆叠,(SpineLeaf)堆叠分裂后备框重新自动化上线,设备无法被纳管。

2. 解决方法

堆叠设备拆开使用时,需要手动删除页面上的网元,再对设备进行自动化上线。

2.3.3  堆叠设备,做主备倒换后,控制组件设备状态Inactive

1. 问题现象

堆叠设备主备倒换过程中,控制组件的设备状态一段时间显示inactive,但是后面设备可以自动恢复active状态

2. 问题原因

控制组件实现:控制组件和设备openflow建立成功后,控制组件还会和设备建立netconf长连接,通过netconf给设备下发配置,只要netconfopenflow有一个断开连接,控制组件设备状态显示inactive

主要原因:主备倒换的过程中netconf没有NSR机制,同时openflowNSR机制仅支持设备只有两个主控板(MPU)进行主备倒换的场景。(目前openflow产品缺陷,netconf增加NSR比较复杂)

2.3.4  不允许多台控制组件同时纳管同一台设备

2.3.5  纳管已适配的华为设备时,设备状态Inactive

1. 问题现象

控制组件在纳管第三方网元设备(仅针对华为设备),设备状态一段时间显示inactive,提示SNMP连接失败。

2. 解决办法

需要在华为设备上snmp参数配置中添加mib-view,否则华为设备与控制组件建立snmp连接时,华为设备会给控制组件返回noinstance

snmp-agent

snmp-agent community read read

snmp-agent community write cipher write mib-view iso-view   //团体字以现场实际设置为准

snmp-agent community read cipher public mib-view iso-view  //团体字以现场实际设置为准

snmp-agent sys-info version all

snmp-agent mib-view included iso-view iso

2.4  通用策略组

2.4.1  手动创建的通用策略组无法配置系统默认的组策略

1. 问题现象

手动创建的通用策略组(接口组或设备组),配置组策略时只能选择用户自定义策略模板。

2. 解决方法

问题原因为系统默认的策略模板只支持系统默认创建的通用策略组,不支持手动创建的通用策略组。自定义创建的策略模板支持系统默认创建的通用策略组以及手动创建的通用策略组。因此,可通过自定义创建的策略模板下发到手动创建的通用策略组组策略中。

下面以接口组配置自定义模板为例:“模板类型”选择“自定义”,“接口添加策略时下发的命令”输入框填写要向设备下发的命令,“接口删除策略时下发的配置”填写的是删除策略时恢复配置的命令,必须填写,否则删除策略时下发的策略无法删除。

图2-4 配置详情

 

2.4.2  修改AAA策略模板后MAC Portal用户认证上线无法成功

修改AAA策略模板后,点击确定会提示,是否应用到通用策略组里,选择,修改的AAA策略才能下发设备。

AAA策略中修改了ISP域名,则还需要修改MAC Portal接口策略模板中的域名,并且MAC Portal接口策略模板应用的通用策略组也需要删除和重新配置策略,否则接口配置的域名和AAA策略的域名不一致,MAC认证无法成功。

图2-5 接口策略模板

 

2.4.3  设备策略模板802.1x认证方式(LDAP场景)的注意事项

创建802.1X类型设备策略模板时,如果是LDAP认证场景,需要使用EAP方式。

图2-6 设备策略模板

 

2.5  安全组

2.5.1  私网、安全组配置没有下发设备

1. 问题现象

私网、安全组都已创建成功,但是设备上查看下发的配置信息,没有私网、安全组等相关的配置。

2. 解决方法

·     【自动化】 > 【园区网络】 > 【隔离域】,查看Fabric是否已配置。

隔离域中没有配置Fabric,无法向设备下发私网、安全组等相关的配置。

图2-7 隔离域

 

·     【自动化】 > 【园区网络】 > 【网络设备】,查看设备的数据同步状态是否为。若状态为,表示控制组件有配置未下发设备,点击开 转到“交换设备数据同步详情页面,先点击【审计】,审计后会把审计的结果通过xml的方式显示,然后点击【数据同步】,同步控制组件和设备不一致的信息,控制组件会把未下发的配置同步到设备。

2.5.2  安全组已配置子网,但DHCP Server上没有创建子网地址池

·     【自动化】 > 【园区网络】 > 【隔离域】,查看隔离域中 DHCP服务器是否已选择,需在隔离域中设置DHCP服务器,安全组子网才会在DHCP Server上创建。

图2-8 修改隔离域

 

·     DHCP服务器已设置,则登录DHCP服务器,查看DHCP服务器是否正常。

2.5.3  安全组子网如何切换DHCP服务器

【自动化】 > 【园区网络】 > 【隔离域】,修改在隔离域中 DHCP服务器即可进行DHCP服务器切换。DHCP服务器切换后,原先DHCP服务器的地址池会把隔离域对应的所有安全组中的子网删除,并且新的DHCP服务器上创建所有对应的子网。

图2-9 隔离域

 

2.5.4  从网段使用限制

图2-10 子网

 

·     一个安全组可以配置多个“从网段”,但是只能配置一个“主网段”,IP地址根据实际方案的IP规划设置,不同安全组需要配置不同的IP地址段;

·     创建“从网段”前,必须创建“主网段”;

·     使用“从网段”时,接入策略中不可以使用“绑定用户IP地址”功能;

·     “从网段”不能配置与“主网段”有包含关系的网段。该特性主要用于实现改造场景中终端(打印机)的地址保持不变,将多个终端的网段划分为一个安全组,节省设备上组间策略的ACL

2.6  组间策略

2.6.1  组间策略配置默认全局DenyIT资源访问

组间策略默认配置全局Deny的配置如下所示:

图2-11 组间策略

 

访问IT资源的部署方式如下:

建议一些公共的“IT资源组”的物理服务器通过Spine连接,并且部署在vpn-default私网内。

IT资源组”部署在vpn-default私网内时,不管私网的“默认访问策略”设置为“允许”或“拒绝”,“私网”的“安全组”与“IT资源组”的访问默认都是互通的。通过在每个私网内配置不允许访问的“IT资源组”,对“IT资源组”下发Deny的组间策略的方式,用于禁止对资源的访问。

S6520X/S5560X设备做为Border(Leaf组网),此时若“IT资源组”部署在vpn-default私网内且组间策略配置缺省拒绝,则业务私网和IT资源组会出现不通的情况,这种场景下需要手工在Border的出接口上配置允许:

#                                                                   

acl advanced name SDN_ACL_SC_PERMIT_ALL                                        

 description SDN_ACL_SC_PERMIT_ALL                                             

 rule 0 permit ip                                                              

#

#                                                                              

policy-based-route SDN_GLOBAL_SC permit node 0                                

 if-match acl name SDN_ACL_SC_PERMIT_ACLL                                      

#

#

int Ten-GigabitEthernet2/0/18               //IT资源组外联的物理接口                                       

ip policy-based-route SDN_GLOBAL_SC

#

2.7  宽带物联

2.7.1  宽带物联终端如何保持长期在线

1. 问题现象

不主动发包的一些哑终端(如打印机),在长时间没业务的情况下超时下线

2. 解决方法

物联终端长期保持在线的功能,通过离线检测时长联动ARP/ND Snooping,在ARP/ND老化前30s触发更新保活,实现宽带物联终端保持长期在线。保持宽带物联终端1-2个离线检查周期内不下线,则只需要在EIA的接入策略中设置“离线检测时长”即可。具体配置如下:

路径:[自动化>用户业务>接入服务],点击右上角“接入策略”链接,进入接入策略页面,点击列表接入策略名对应的修改列的修改图标,进入修改接入策略页面,修改“授权信息”区域的修改接入策略的“离线检测时长(小时)”,推荐设置为24小时。

图2-12 授权信息

 

若需要保持宽带物联终端永不下线,有下述两种方式:

·     方式1:离线检测时长配置成0,关闭离线检测,保证终端长时间无流量也不会老化,实现永不下线。

·     方式2:在配置了离线检测时长的基础下,还需要在SeerEngine-Campus中设置ARP Snooping并且在设备上配置离线检测时长的联动。通常适用于保证某些特定的宽带物联终端永不下线。

a.     路径:[自动化>园区网络>私有网络>二层网络域],点击列表中对应项的修改图标,进入修改二层网络域页面。

b.     在该页面的“高级”页签中,将“ARP Snooping”选项置为“是”,点击<确定>按钮下发配置。

图2-13 高级

 

Leaf设备上下发的ARP snooping enable的命令:

#                                                                              

vsi vsi4                                                                       

 description SDN_VSI_4                                                          

 gateway vsi-interface 4                                                       

 statistics enable                                                             

 arp snooping enable       //园区控制组件下发的命令                      

 flooding disable all all-direction                                            

 vxlan 4                                                                       

 evpn encapsulation vxlan                                                      

  mac-advertising disable                                                      

  arp mac-learning disable                                                     

  nd mac-learning disable                                                      

  route-distinguisher auto                                                     

  vpn-target auto export-extcommunity                                          

  vpn-target auto import-extcommunity                                          

 dhcp snooping binding record                                                  

#

在进行前面的离线时长和ARP Snooping配置外,还需要手动配置mac-authentication offline-detect mac-address xxxx-xxxx-xxxx timer xxxx check-arp-or-nd-snooping命令,实现离线检查时长与ARP/ND Snooping的联动,在ARP/ND老化前30s触发更新保活。

命令配置如下:

timer指离线检测时长时间,建议设置成比ARP的老化时间长,例如3600s

#

mac-authentication offline-detect mac-address 0001-0002-0003 timer 3600 check-arp-or-nd-snooping

#

注意

mac-authentication offline-detect mac-address xxxx-xxxx-xxxx timer xxxx check-arp-or-nd-snooping命令,每一个认证的终端设备需要配置一条,mac-address填写的是终端的MAC地址。若不配置该命令,只配置离线检测时长,则无法实现ARP Snooping和离线检测时长的联动,超过离线检查时长无流量触发则终端下线。

 

2.8  设备相关

2.8.1  外联设备配置静态路由

外联设备是指Spine和服务器(SeerEngine-CampusEIA)连接的中间交换机。用户认证上线获取到安全组地址后,需保证用户获取的地址与EIA服务器互通,此时需在外联设备上配置缺省静态路由下一跳为spine vsi4094接口地址。

ip route-static 0.0.0.0 0 110.0.1.41      ——配置一条缺省路由下一跳为spine vsi4094接口地址

2.8.2  配置IRFMAC永久保留

配置IRFMAC永久保留,无论IRFMAC拥有者是否离开IRFIRFMAC始终保持不变。(BCM款型设备默认永久保留,Marvell款型设备默认非永久保留)

irf mac-address persistent always

防止现网出现下述问题:

由于IRF设备桥MAC拥有者离开IRFIRF设备桥MAC发生变化。控制组件每20秒会接收设备上报的SNMP报文,解析报文获取IP地址和对应的MAC,并将获取 MAC与控制组件中记录的设备上线时MAC比较,当MAC不一致时即会报出IP地址冲突。

2.8.3  S5560X/S6520X修改VXLAN模式

每一台设备在纳入到SeerEngine-Campus管理之前必须保证switch-modeVXLAN MODE

S5560X/S6520X默认switch-modeNORMAL MODE,需设置switch-modeVXLAN MODE,设置后设备重启生效。

配置命令如下:

#

[leaf-s56]switch-mode ?                                                         

0  NORMAL MODE(default)                                                      

1  VXLAN MODE                                                                

  2  802.1BR MODE  

[leaf-0.5]switch-mode 1                                                                                                            

Reboot device to make the configuration take effect.                                                                                

[leaf-0.5]dis switch-mode status                                                                                                   

  Switch-mode in use: VXLAN MODE.                                                                                                

  Switch-mode for next reboot: VXLAN MODE.

#

2.8.4  SpineLeaf重启后没有EIA服务器或者AccessARP

1. 问题现象

SpineLeaf重启后没有EIA服务器或者AccessARP,导致Leaf设备无法访问EIA服务器或者控制组件无法连接Access设备。

2. 解决方法

Spine Leaf设备的 vsi 4094接口下配置arp proxy-send enable命令,开启ARP请求代理发送功能。

配置如下:

#                                                                              

interface Vsi-interface4094                                                    

 ip binding vpn-instance vpn-default                                           

 ip address 100.0.1.43 255.255.255.0                                           

 local-proxy-arp enable                                                        

 arp proxy-send enable       // 手动增加开启ARP请求代理发送功能

#

2.8.5  控制组件纳管设备状态为Inactive

控制组件纳管设备状态为Inactive时,可进行如下排查:

(1)     如果是spine和控制组件之间是二层组网,需要查看spine上有没有到控制组件的ARP,通过ping -vpn-instance vpn-default 服务器IP,验证是否能ping通。

如果是spine和控制组件之间是三层组网,需要查看设备上有没有到控制组件的路由下一跳的arp,通过ping -vpn-instance vpn-default  下一跳ip,验证是否能ping通。

若设备上没有ARP,并且也ping不通服务器,则可能是如下原因导致:

Spine/Leaf重启后Leaf/Access设备上没有上述两种情况的arp信息,导致Leaf设备无法访问EIA服务器或者控制组件,以及Access无法连通控制组件,可通过以下方式解决:

SpineLeaf设备的 vsi 4094接口下配置下面红色字体的命令:

###############################################################

Comware V700R001B70D046版本开始支持arp proxy-send enable 命令

###############################################################

#                                                                              

interface Vsi-interface4094                                                    

 ip binding vpn-instance vpn-default                                           

 ip address 100.0.1.43 255.255.255.0                                           

 local-proxy-arp enable                                                        

   arp proxy-send enable       // 开启ARP请求代理发送功能,用于解决服务器连接不上LeafAccess问题spineLeaf设备的vsi4094接口必须配置

(2)     检查Spine上行接口连接的L3交换机上的ARP表项,确保L3交换机上存在SpineLeafAccess以及服务器的ARP表项。

2.8.6  Fabric互联需要使用单独的出口路由器

Fabric共用互联的L3管理交换机,仅作为控制组件管理设备用,Fabric之间互联以及互访问的流量需要使用单独的出口路由器。

2.8.7  M-LAG设备单机情况下设备重启

问题现象:

如下图所示,S1S2组成MLAG,然后S2设备故障(独立),网络中只剩下S1设备。

这种情况下,S1设备的m-lag role升为主,所有业务都正常,没有问题。

但是在这种情况下,若S1设备重启,重启后m-lag role会变为noneS1设备上所有的接口都为mad down,这时S1设备用户流量是无法转发的。

图2-14 流程图

 

解决方法:

在设备上配置如下命令,解决单MLAG设备情况下,设备重启后m-lag mad down的问题。

配置设备重启后的自动恢复时间。

m-lag auto-recoveryreload-delaydelay-value

缺省情况下,设备不自动恢复。

请配置本定时器的值大于整机重启时间,避免DR设备间出现角色抢占。

2.8.8  S5590或者S5590XP,设置system-working-mode expert模式

如果设备是S5590或者S5590XP作为leaf,需要设置system-working-modeexpert模式,重启后生效。

S5590或者S5590XP配置命令如下:

#工作模式设置成expert模式,执行完后需重启才能配置生效

system-working-mode  expert

#

2.9  防火墙

2.9.1  端口号及业务网段放通

涉及防火墙的组网场景,请参考《AD-Campus 6.5 端口通信矩阵》,放通对应端口。同时放通有互访需求的网段策略,例如用户网段到EIADHCPDNS服务器等。

2.9.2  DNS服务器

配置DNS域名解析后,需保证BYOD网段(终端首次上线)、业务网段(终端无感知失效状态下上线)和DNS服务器的连通,否则MAC Portal重定向页面无法跳转。

2.10  用户上线业务

2.10.1  接入用户已创建,认证时提示用户不存在

1. 问题现象

接入用户已创建,但是终端认证不成功,提示用户不存在。

图2-15 认证不成功

 

【分析】>【接入分析】>【认证失败日志】中查看日志信息,也显示用户不存在。

2. 解决方法

【自动化】 > 【园区网络】 > 【网络设备】 > 【通用策略组】 > 【策略模板】

策略模板中配置AAA认证是“是否携带ISP域名选择了开启,表示Leaf设备会在与EIA进行交互的Radius报文中携带用户名@域名,下图中IPS域名设置为“abc”

图2-16 Radius方案

 

图2-17 设置

 

EIA管理控制界面,【自动化】 >【用户业务】>【接入服务】,修改创建的接入服务,“服务后缀输入框填写前面配置的IPS域名“h3c”。后续用户认证时就会自动带上用户名@域名。

图2-18 接入服务

 

2.10.2  使用iNode客户端认证上线失败

1. 问题现象

使用iNode客户端认证上线后快速下线提示信息为安全认证失败”“未收到服务器回应,即将强制下线,如下图所示:

图2-19 认证失败

 

2. 解决方法

出现安全认证失败的原因为用户认证上线后iNode还需要与EIA进行EAD的安全校验,用户IP没有收到EIA的回应报文,是用户获取的IP地址与EIA之间的互通问题,可通过以下步骤进行排查:

(1)     在客户端ping EIA服务器地址,然后通过iNode用户认证上线,查看用户获取IP地址后能否pingEIA,若ping不通,则进行下一步;

(2)     登录EIA服务器,查看EIA服务器是否配置默认路由或者配置网关,若已配置,则进行下一步;

用户iNode能认证上线再因安全认证失败下线,表示用户在Leaf设备、Spine设备是能与EIA互通,可不需要在SpineLeaf上进行查看。

(3)     登录Spine和服务器(SeerEngine-CampusEIA)连接的中间交换机,查看是否配置默认路由下一跳指向Spinevsi4094接口。若未配置,则配置静态路由,再在用户客户端尝试再次认证上线,问题是否解决。

交换机上配置默认静态路由如下:

ip route-static 0.0.0.0 0 110.0.1.41      ——缺省路由下一跳为spine vsi4094接口地址  

(4)     第四步:用户客户端认证上线仍提示安全认证失败,则需要逐级抓包,确认报文丢在哪里。

EIA服务器上抓包,若EIA已收到客户端报文并已回复,则在到Spine和服务器接入的中间交换机抓包,再逐级到SpineLeafAccess查看报文丢失设备。

2.10.3  EIA未部署EAD时,iNode客户端不能配置EAD服务器IP

EIA未部署EAD,则定制iNode的时候,不要定制EAD服务器的IP地址。否则会由于定制的EAD服务器IP不通,用户认证会被下线,用户认证无法成功。

iNodeEAD服务器IP地址配置路径如下:

图2-20 客户端

 

图2-21 管理平台

 

2.10.4  用户上线认证失败可能原因

用户上线认证失败常见原因有以下几种:

·     设备上AAA策略的配置是否下发,AAA策略中配置的认证服务器是否正常;

·     Spine设备、Leaf设备与认证服务器EIA是否互通;

·     安装部署EIA时认证服务器的IP地址填写不正确,需填写与EIA对外业务的网卡IP

·     Leaf设备认证接口配置是否正常;

·     Spine和服务器(SeerEngine-CampusEIA)连接的中间交换机,必须配置默认路由或明细下一跳指向Spinevsi4094接口。

2.10.5  使用非我司客户端认证上线失败

使用非我司inode作为客户端,例如windows自带客户端,苹果自带客户端等第三方客户端进行802.1x认证时,需要导入预置证书。需要在EIA控制台上安装证书,证书安装完成后,windows自带的802.1x客户端,手机客户端的无线Wifi都能够认证成功。

假如没有导入证书,EIA会回复reject,认证失败。对应的UAM debug级别日志里会有如下提示:

%% 2019-09-05 10:42:57.089 ; [LDBG] ; [26740] ; EAP ; EapTlsAuth.reGenContxt: certificate file type is PEM.

%% 2019-09-05 10:42:57.089 ; [ERR] ; [26740] ; EAP ; EapTlsAuth.reGenContxt: certificate file does not exist.

%% 2019-09-05 10:42:57.089 ; [ERR] ; [26740] ; EAP ; eapProc.typeLoad: fail to init for peap.

%% 2019-09-05 10:42:57.089 ; [ERR] ; [26740] ; EAP ; EapProc.typeSelect: can't load instance for type 25.

%% 2019-09-05 10:42:57.089 ; [WARN] ; [26740] ; EAP ; eapProc.auth: typeSelect returns 1 with ErrCode 0.

%% 2019-09-05 10:42:57.089 ; [ERR] ; [26740] ; EAP ; eapTsk.sv: calling auth failed, process request failed or request invalid, simply reject.

证书安装路径:路径:【自动化】>【用户业务】>【业务参数】>【接入参数】->【证书配置】,在“证书配置”页面,点击“导入预置证书”,会自动导入预置的证书,如下图所示。配置完成后,非我司inode作为客户端的802.1x认证能够成功认证。

若客户需要使用自己的证书,则可以通过“导入EAP根证书或者导入WAPI根证书进行证书导入。

图2-22 证书配置

 

2.10.6  IP地址绑定失败

用户认证上线成功,但是用户IP地址绑定没有成功,可通过以下几个方面进行排查是否为配置问题:

·     部署控制组件时请勾选融合EIA,否则按照下述步骤排查;

·     查看【自动化】>【用户业务】>【接入参数】> 【系统配置】> 【终端管理参数配置】,“终端管理参数配置”页面中控制组件IP地址填写是否正确。

图2-23 参数配置

 

“控制组件配置”的“IP地址”填写集群北向IP,即统一数字底盘配置集群时配置的北向IP

下图为统一数字底盘上集群配置信息:

图2-24 IP地址

 

·     EIA服务器上ping集群北向IP,需保证与集群IP互通;

·     【用户业务】>【接入服务】> 【接入策略管理】,查看用户接入组对应的接入策略,是否勾选“绑定动态分配的IP地址”。

图2-25 接入服务

 

2.10.7  静态IP用户上线如何上送IP

·     使用iNode客户端认证上线,在iNode客户端上勾选“上传IPv4地址”。

图2-26 上传IPv4

 

·     MAC认证用户上线,二层网络域中使能arp snooping携带IP地址。

图2-27 二层网络域

 

注意

mac-authentication carry user-ip命令只在EIA绑定静态IP、宽带物联哑终端基于IP段自动开户两种场景下才需配置,其余场景下不能配置

 

 

2.10.8  MAC Portal认证终端无法弹出认证页面

用户终端Web页面输入任意IP地址,弹不出Portal页面,常见的原因以下几种,遇到终端不弹Portal页面问题,可以按下述情况进行排查:

·     终端和服务器不通;

·     重定向URL下发失败或被删除;

·     报文没有匹配上重定向URL

另外,如果配置了DNS域名解析,还需保证BYOD网段(终端首次上线)、业务网段(终端无感知失效状态下上线)和DNS服务器的连通,否则重定向页面也无法跳转。

1. 终端和EIA服务器不通

如果ping不通,肯定无法弹出认证页面,可以通过以下几个方面进行排查:

排查用户获取的DHCP地址是否是BYOD VSI网段的地址,获取到的网关是否正确:

 

如果DHCP地址或网关获取错误,PC上可通过ipconfig /releaseipconfig /renew命令释放地址后重新获取:

 

 

检查用户PC上是否存在多条默认路由,可通过route delete命令删除多余的默认路由:

 

检查用户PC是否学习到网关ARP

 

检查Leaf网关是否可以pingEIA服务器:

 

Leaf上检查用户是否上线成功,用户对应的动态AC是否创建成功:

 

Leaf上为上线用户创建动态AC如下:

 

动态AC对应底层ACL如下:

 

 

 

检查Leaf上用户MACARP表项是否正确:

 

 

 

 

 

ARP表项中,VSI索引及Link ID与实际VSIInterface的对应关系可以通过下面命令查询:

 

 

底层ARP表项:

 

查看底层ARP表项的命令中,VPN索引3可以通过以下命令查询:

 

2. 重定向URL下发失败或被删除

检查底层重定向URL是否下发成功

 

3. 报文没有匹配上重定向URL

检查报文是否能匹配上重定向URL,用户PC访问网页,查看Leaf设备底层如下重定向ACLAccounting计数是否增加,如果没有增加,说明报文没有匹配上重定向URL

 

进一步排查,Leaf上查看用户上线后创建的动态AC是否正确,如果动态AC对应底层的ACL没有FlowID字段,或底层对应的ACL FlowID字段值不是1等情况,都会导致http/https报文无法匹配上重定向URL

 

 

 

2.10.9  用户上线后获取不到DHCP地址

用户上线后获取不到DHCP地址问题,如果抓包发现是Leaf设备没有正常转发DHCP报文

(1)     登陆DHCP Server服务器,检查DHCP Server状态是否正常。

(2)     可在Leaf设备上进一步排查,检查Leaf设备是否可以pingDHCP Server服务器。

(3)     Leaf可以pingDHCP Server服务器,检查dhcp relay的配置是否下发

 

(4)     查看Leaf设备上是否已下发DHCP Enable的全局命令

 

(5)     Leaf设备上打开DHCP SnoopingDHCP Relay调试开关,排查设备对DHCP报文的处理是否正常:

设备上打开DHCP Snooping调试开关:

 

打开DHCP Snooping调试开关后,用户申请地址,正常情况下,设备会打印如下DHCP报文交互信息:

 

 

 

 

设备上打开DHCP Relay调试开关:

 

打开DHCP Relay调试开关后,用户申请地址,正常情况下,设备会打印如下DHCP报文交互信息:

 

 

 

 

 

 

调试开关可通过如下命令或“Ctrl+O”关闭:

 

2.10.10  大量用户上线后,Leaf设备主备倒换,部分用户下线(Online Check

1. 问题现象

大量用户上线后,Leaf设备主备倒换,部分用户下线,【分析>【接入分析】>【认证失败日志】中查看日志信息,下线原因:Online Check(检查在线记录)

 

2. 问题原因

AAA模板默认计费时间间隔是15分钟,EIA默认老化时间间隔是30分钟,设备主备倒换的时候,计费周期会清零计算,大量用户在线的情况下,计费报文会出现延时发送计费报文的情况,导致iMC30分钟没有收到计费更新报文,因此踢用户下线。

 

 

3. 解决方法

AAA模板默认计费时间间隔是15分钟,建议把EIA的老化时间间隔改长一点,建议180min

 

2.10.11  升级matrix主节点时,用户掉线

1. 问题原因

集群环境下,通过service mha-mysql 连接pxc的中间经过了负载均衡组件haproxyhaproxy将连接负载到了三个pxc实例上,节点的matrix在升级的过程中该节点上的pod都会处于pending状态,故在升级matrix2节点时绑定在该节点上的pxc-node2服务不可用,已存在的被负载到pxc-node2节点上的连接会不可用。这个时候由于在线表不会更新,导致新切换的UAM会发现之前的在线信息需要老化了,在线表信息老化了之后,收到用户的计费报文就会设置会话下线。

日志报错:

%% 2021-04-29 07:55:11.030 ; [ERR] ; [3380586240] ; DB ; ERR  %D  %N:%||Connection is not openning.

2. 规避方法

升级前先修改“老化时间间隔”(路径:自动化->用户业务->接入参数->系统配置->系统参数配置),建议配置180min。后续EIA版本会将默认值修改为180min

 

 

2.10.12  有用户在线情况下,不允许DHCP Server换绑

当隔离域中有用户在线时,不允许在隔离域中进行DHCP Server切换。若必须要进行DHCP Server的切换,则可能会导致已在线用户进行DHCP 地址续约时,名址绑定场景下的用户获取新的IP地址,但不影响用户业务访问。同时如果存在换绑前后的二层网络域冲突,也可能导致IP地址冲突。

2.10.13  特定条件下,Leaf下行口down/up导致业务不通

触发条件:下述三个条件同时满足

同时开启新名址绑定和IP source guard;认证方式为MAC认证;Leaf下行口发生down/up

问题原因:

Leaf下行口down时,用户会下线。在新名址绑定环境下,用户下线时会联动删除DHCP Snooping表项。

Leaf下行口up后,用户流量自动触发上线,由于是MAC认证,用户端不感知,因此不会重新申请地址。导致不会重新生成DHCP Snooping表项。

由于端口同时使能了IP source guard,查不到dhcp snooping表项,无法生成IPSG安全表项进而导致业务不通。

解决方法:

(1)     新名址绑定不能和IPSG(即IPv4接口绑定)或者arp detection(即arp检测)共存

(2)     对外开局部署,不建议Leaf上部署IPSG

2.10.14  升级底盘或EIA之前,建议将AAA老化时间间隔设置为1440分钟。升级成功后再修改回缺省值180分钟。防止EIA长时间收不到认证设备发过来的在线用户的计费更新报文,导致EIA上的在线表老化。

参数作用原理:如果EIA长时间收不到认证设备发过来的在线用户的计费更新报文,EIA上的在线表会老化,但认证设备上的在线用户还在线,当EIA恢复后,后续收到该认证设备的计费更新报文时,会将该用户踢下线,导致业务中断。

 

2.10.15  升级底盘或EIA之前, 如果启用了策略服务器且使用iNode1x认证,需要在升级前调大心跳间隔时长心跳超时次数,确保“时长 * 次数”超过EIA不可用的时间。防止iNode因心跳超时导致终端掉线。

注意事项:     

该参数设置后,对已经在线用户不会立即生效,需要等24小时后才生效。

请在至少在升级前1天,修改该参数。当升级完成后再改回默认值。

 

2.10.16  leaf下行口同时配置802.1x认证和mac认证的策略,终端进行mac认证较慢解决方法

问题描述:

leaf下行口同时配置802.1x认证和mac认证的策略,终端进行mac认证较慢,大概需要40s

解决方案:

配置端口的MAC地址认证和802.1X认证并行处理功能。mac-authentication parallel-with-dot1x

缺省情况下,端口在收到源MAC地址未知的报文触发认证时,按照802.1X完成后再进行MAC地址认证的顺序进行处理。

开启并行处理功能可以使设备同步处理mac认证和802.1x认证。

可通过控制组件下发:

路径:网络设备->通用策略组

修改策略模板,选择接口组动作MAC/MAC Portal认证,“是否开启并行处理功能”选择是。控制组件默认是开启的,如果现场修改过该参数,请改为是。

 

2.11  无线业务

2.11.1  无线AP模式切换

AD-Campus方案中,无线业务需要使用AC+FitAP架构,开局时如果有无线AP默认为胖AP模式,需要手动切换为瘦AP后才能去向AC注册。切换方法请参考无线产品相关文档。

注:AP双上行不支持自动聚合

2.11.2  无线AP较多时,业务VPN下需要配置路由策略

无线AP较多时,vpn-default会有大量ap地址的主机路由,并被引入到各个业务VPN,导致设备整体的路由表项过多。需要在SpineLeaf上的所有业务VPN上配置路由策略,过滤掉这些ap地址的主机路由。

注意:vpn-default下不需要配置路由策略,只在业务VPN下配置路由策略即可。

配置举例如下:

(1)     创建ip prefix-list,匹配无线二层域的前缀和主机路由:

ip prefix-list test index 50 permit 120.0.3.0 24 less-equal 32 (网段和掩码以实际组网为准)

(2)     创建路由策略,匹配ip-prefix-list

#

route-policy test deny node 10 //过滤step1中的列表test,动作为deny

if-match ip address prefix-list test

#

route-policy test permit node 20 //放行未命中的其他路由,动作为permit

#

(3)     各个业务VPN下应用Step2中的路由策略(红色部分)

[Leaf_2-new-version-vpn-instance-XXXXX]dis th

#

ip vpn-instance XXXXX

route-distinguisher 1:2

description SDN_VRF_be123883-bb2e-4215-8c64-ebced0c1cbfe

import route-policy test

#

2.11.3  无线用户的IP发生变化,EIA上需要较长时间才能展示

1. 问题现象

无线用户的IP发生变化,例如MAC Portal认证,重定向页面输入用户名和密码之后切换为业务地址。无法立刻发计费更新报文告诉EIA,需要等15分钟的计费更新报文,因此EIA界面用户列表需要15min才更新地址。

2. 问题原因

无线ACAAA模块不会在终端IP发生改变后立刻发送实时计费更新,与有线用户实现不一致。

3. 解决方法

在无线服务模板下,配置下述命令使其在终端IP发生改变时立刻触发计费更新

client-security accounting-start trigger ipv4-ipv6

client-security accounting-update trigger ipv4-ipv6 

命令说明:

仅当触发计费开始的无线客户端IP地址类型配置(client-security accounting-start trigger ipv4-ipv6)生效时,触发计费更新的无线客户端IP地址类型的配置(client-security accounting-update trigger ipv4-ipv6)才会生效。

当完成该配置后,该配置和周期性发送计费更新报文功能同时生效。

假设配置的触发计费更新的无线客户端IP地址类型为IPv6,周期性发送计费更新报文功能配置的实时计费间隔为12分钟(timer realtime-accounting命令配置),则设备会每隔12分钟发起一次计费更新请求,且当在线客户端IPv6地址发生变化时,设备也会立即发送计费更新请求报文。

无线服务模板开启后,再配置本特性,则配置只对新上线的客户端生效,对已经上线的客户端无效。

2.11.4  EIA上无法展示无线用户的IPv6地址

1. 问题原因

无线服务模板缺省情况下通过DHCPv6/ND方式学习客户端IPv6地址功能处于关闭状态。。

2. 解决方法

# 在无线服务模板下,使能通过DHCPv6/ND方式学习客户端IPv6地址功能

client ipv6-snooping nd-learning enable

client ipv6-snooping dhcpv6-learning enable 

命令说明:

AP通过DHCPv6/ND方式学习到客户端IPv6地址后,会将学习到的客户端IPv6地址和客户端MAC地址记录为WLAN IP Snooping绑定表项,并同步绑定表项给AC

2.11.5  本体AP无法实现自动聚合

1. 问题描述

本体直连Leaf,部分客户为了可靠性希望Leaf和本体之间两根线聚合互联。但是当前自动化实现,Leaf只能将本体识别成AP、修改下行口pvidtrunk配置,无法实现自动聚合。

2. 规避方式

本体APLeaf多链路互联时,需手工配置聚合,并在聚合口下配置TrunkPVID、服务实例等配置。

2.12  园区拓扑

2.12.1  园区拓扑中不显示接口速率

1. 问题现象

园区拓扑中查看链路的信息,统计不到接口速率。

 

2. 解决方法

控制器默认关闭接口事件统计开关,园区拓扑中展示接口速率需要将接口监控开关开启(入口:自动化->园区网络->网络设备->监控->事件统计->接口事件统计),并点击刷新按钮。

相关说明:接口事件统计和监控网络中都可以对设备的接口速率进行统计,实际使用过程中任选其中一个进行监控即可。

 

 


3 DHCP Server

3.1  我司自研vDHCP Server

3.1.1  如何登录vDHCP

使用docker命令进入容器:

 

3.1.2  如何查看vDHCP的地址池以及地址分配

·     查看/mnt/flash:\/路径下的startup.cfg文件

startup.cfg文件中可以查看到创建的地址池以及IP绑定信息。startup.cfg文件5分钟同步一次内存信息,因此查看到的不一定是最新信息。

 

·     登录vdhcpshell进行查看

[root@vdhcpsrc1-64c84d599-2g6gp /]# vdhcpshell

vdhcpshell下支持如下命令:

display dhcp server ip-in-use

display dhcp server ip-in-use pool pool-name

display dhcp server ip-in-use ip ipv4-address

display ipv6 dhcp server ip-in-use

display ipv6 dhcp server ip-in-use pool pool-name

display ipv6 dhcp server ip-in-use address ipv6-address

[undo] debugging dhcp server {all | error | event | packet [verbose]}

[undo] debugging ipv6 dhcp server {all | error | event | packet [verbose]}

reset dhcp server ip-in-use

reset ipv6 dhcp server ip-in-use

 

3.1.3  如何查看vDHCP主备节点

登录vsrplshell,可查看vDHCP主备节点以及节点信息:

vsrplshell下支持如下命令:

display vsrp peer

display vsrp instance

 

3.1.4  vDHCP主备地址池不同步

vDHCP的主备服务器,能同步分配的IP地址以及IP绑定信息,但是不能同步地址池。控制组件在创建安全组时,需分别向主、备服务器下发地址池。

vDHCP的主备服务器有一个节点故障的情况下,在控制组件上创建新的地址池。然后vDHCP故障节点恢复正常,由于vDHCP主备服务器不会同步地址池,因此在DHCP 管理界面上,控制组件提供了一个重新下发的按钮,当控制组件审计出vDHCP节点与控制组件下发配置的不同时,点击重新下发按钮进行配置下发。

 

3.1.5  vDHCP不支持多套系统同时纳管

vDHCP不支持多套系统同时纳管,一套vDHCP只能被一套系统纳管。

3.1.6  集群环境下,vDHCP只支持高可用方式

集群环境下,控制组件纳管vDHCP时,必须使能高可用。

3.1.7  vDHCP所在服务器重建/重装后地址池丢失恢复方法

vDHCP所在的服务器进行重建/重装后存在vdhcp配置丢失的问题,有如下两种恢复方法:

方法一:通过控制器重新推送vDHCP配置:

重建/重装节点完成后,在控制器上审计出来差异后通过控制器进行配置平滑,将vdhcp的主备切换后在控制器上审计出来差异后通过控制器进行配置平滑。

vDHCP主备倒换的方法:

登录主vDHCP所在服务器,找到对应的vDHCPpod的名;

 

重启主vDHCPPOD

 

方法二:通过vDHCP备份文件进行恢复(需要提前做好vDHCP数据备份):

注意事项:建议按照如下步骤恢复数据后,在控制器页面进行vDHCP配置审计(主备都需要进行审计,主审计后进行vDHCP切换后再次审计),针对差异部分进行平滑操作。

·     解压vdhcp的备份文件(解压文件中会有两个文件夹,分别为vdhcpsrc1-XXXvdhcpsrc2-XXX,恢复文件时需要与vdhcp主备节点的pod名称对应);

·     将解压后的vdhcp备份文件全部拷贝到重装/重建好的节点的/opt/matrix/app/data/vDHCPS/etc/cfg/目录下

·     重启vDHCPpod(删除vdhcp对应的pod),之后进入vDHCP容器里面,输入vdhcpshell,两次Enter后再输入display dhcp server ip-in-use查看地址池及租约信息已存在;

 

·     netconf-cli –save保存vDHCP配置(vDHCP容器里执行)

相关说明:变更窗口比较充足的场景下建议使用方案一进行数据恢复,使用方案一恢复数据,存在租约无法恢复的情况(为尽最大可能减少租约不在导致的地址冲突,尽可能在变更前将租约改短,变更完成后改为正常租约),使用方案二可以恢复现网租约,适用用于对业务要求比较高的局点。

3.1.8  节点服务器下电重启,概率出现操作系统无法回收使用MACVLAN附加网络且子网为IPv6协议栈应用进程,导致MACVLAN附加网络IPv6网卡出现不可用状态,影响vdhcp分配IPv6地址。

1. 故障描述

已部署Matrix集群,应用所在节点所在服务器下电重启后,概率出现由于操作系统无法回收使用MACVLAN附加网络且子网为IPv6协议栈应用进程,导致MACVLAN附加网络IPv6网卡出现不可用状态,影响vdhcp分配IPv6地址。

使用命令kubectl exec -it -n vdhcps vdhcpsrc1-6658fb96f4-j4n4f(容器的名称按照查询出来的实际情况进行输入) bashvdhcp容器

输入ip a命令查看容器内所有网卡IP,查看MACVLAN附加网络中IPv6网卡eth2@if3处于如下tentative dadfailed状态,则表示此IPv6地址处于不可用状态,无法分配ipv6地址。

[root@vdhcpsrc1-6658fb96f4-j4n4f /]# ip a

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN qlen 1000

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

valid_lft forever preferred_lft forever

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

3: eth0@if914: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP

link/ether 6e:e7:ed:2c:ed:5e brd ff:ff:ff:ff:ff:ff link-netnsid 0

inet 177.177.204.216/32 scope global eth0

valid_lft forever preferred_lft forever

inet6 fd00:177:177:0:d416:1f2a:c3a4:ccac/128 scope global

valid_lft forever preferred_lft forever

inet6 fe80::6ce7:edff:fe2c:ed5e/64 scope link

valid_lft forever preferred_lft forever

4: eth1@if3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP

link/ether d6:ae:4e:73:38:8d brd ff:ff:ff:ff:ff:ff link-netnsid 0

inet 110.1.0.105/24 scope global eth1

valid_lft forever preferred_lft forever

inet6 fe80::d4ae:4eff:fe73:388d/64 scope link

valid_lft forever preferred_lft forever

5: eth2@if3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP

link/ether a2:23:c0:8f:ac:46 brd ff:ff:ff:ff:ff:ff link-netnsid 0

inet6 130::105/64 scope global tentative dadfailed

valid_lft forever preferred_lft forever

inet6 fe80::a023:c0ff:fe8f:ac46/64 scope link

valid_lft forever preferred_lft forever

2. 规避方法

重启容器所在节点(重启服务器)。

3.1.9  vDHCP R1118之前的备份文件恢复到R1118版本操作方法

相关说明:vDHCP使用R1118之前版本的备份文件恢复到R1118版本需要严格按照如下步骤执行,否则会导致vdhcp异常(主备vdhcpvsrptcp邻居建立失败)。

恢复方法如下:

1、删除R1118后台的vsrpLocalData.dat文件:

进入到vdhcp后台:

[root@6-4-campus002 ~]# kubectl get pod -A | grep vdhcp

vdhcps              vdhcpsrc1-6dd5bf6dfd-v7n2l                    1/1     Running     1          2d2h

vdhcps              vdhcpsrc2-64c655f759-b9cws                    1/1     Running     1          2d2h

删除vsrpLocalData.dat文件,主和备都需要删除。

退出容器exit

2、使用R1118之前的备份文件进行恢复。

3.2  微软DHCP Server

3.2.1  微软DHCP HA服务器时钟差不能超过1分钟

微软DHCP HA的两台服务器时钟差不能超过1分钟,否则会导致HA状态异常。

建议使用NTP时间同步。

3.2.2  微软DHCP Server上必须创建4094地址池

微软DHCP上必须创建4094地址,否则会导致无法响应Leaf发过来的DHCP请求。

由于微软DHCP自身的特性,需要创建与vsi4094地址同网段的地址池,否则不会响应Leaf发过来的DHCP请求。该4094地址池不用于实际业务,仅用于确保微软DHCP可以正常响应DHCP请求。

增加地址池,地址池范围与vsi4094的网段一致,网关填写为三层交换机VLAN4094IP,其他参数使用默认值即可。如下所示:

注:多隔离域共用同一个微软DHCP Server时,需要创建多个4094网段地址池,分别对应每个隔离域的4094网段。(图片仅供参考,IP请以实际组网为准。)

 

3.2.3  微软DHCP服务器修改管理员Administrator密码时必须同步修改DHCP plug插件的密码

微软DHCP服务器修改管理员Administrator密码时,必须同步修改DHCP plug插件DHCP plug start服务和DHCP plug服务的密码,并且修改完密码后,必须重启两个服务。

若为DHCP HA环境,则2DHCP Server上都得修改相应的密码,并且2台服务器上 DHCP Plug StartDHCP Plug服务都需进行相应的修改。

 

 

3.2.4  公共机场景下,必须使用iNode客户端进行认证,不允许使用MAC Portal+认证

公共机场景,即一台终端设备使用不同账号登陆,例如:医院诊室不同医生共用终端;银行营业网点多人共用终端;公共机场景下,必须使用iNode客户端进行认证,不允许使用MAC Portal+认证。

3.2.5  微软DHCP Server支持IPv4/IPv6双栈

微软DHCP Server支持IPv4/IPv6双栈。IPv6业务时,微软DHCP Server只支持松耦合,不支持IPv6IP绑定。

3.2.6  多隔离域+名址绑定场景不可共用一套微软DHCP Server

多隔离域场景的用户业务DHCP服务器推荐独立部署,即每个隔离域单独部署一套DHCP服务器。

对于“多隔离域+名址绑定”场景,用户业务DHCP服务器如果使用微软DHCP,每个隔离域必须分别部署微软DHCP服务器,不可共用,否则会导致IP地址分配异常。(如果使用vDHCP,各个隔离域原则上可以共享使用该DHCP服务器。)

3.2.7  微软DHCP Server单地址池的绑定数量需要小于2000

微软DHCP Server单地址池的绑定数量需要小于2000

3.2.8  微软DHCP HA环境,控制组件删除纳管时不删除DHCP Server的故障转移关系

ADCampus方案中纳管微软DHCP HA场景下,控制组件删除微软DHCP Server时,不删除微软DHCP Server的故障转移关系,若该DHCP Server需要被新的控制组件使用,需手工在微软DHCP Server上删除故障转移关系。

3.2.9  微软DHCP HA环境,名址绑定场景,备机故障时,只有主机上可以生成名址绑定记录。24小时后,插件会将绑定表项自动同步到备机。

微软DHCP HA环境,名址绑定场景,备机故障时,只有主机上可以生成名址绑定记录。24小时后,插件会将绑定表项自动同步到备机。

3.2.10  若组网中存在防火墙,请注意放通下述端口号。

1. DHCP Server

表3-1 外部端口

端口

协议

名称

进程

说明

67

UDP

广播请求配置

DHCP

客户端向68端口(bootps)广播请求配置

68

UDP

广播回应请求

DHCP

客户端向67端口(bootps)广播回应请求

 

表3-2 内部端口

端口

协议

名称

进程

说明

135

TCP

RPC服务

RPC

RPC(远程过程调用)服务

647

TCP

DHCP Failover

DHCP

动态主机配置协议

 

2. DHCP Plug

表3-3 内部端口

端口

协议

名称

进程

说明

8958

TCP

DHCP Plug插件

dhcp-plug.exe

P2P通信端口

 

3.2.11  两台服务器的主机名不能相同,否则会影响主备间故障转移关系建立,影响数据同步,两台服务器的主机名也不能与网络中的其他微软DHCP服务器的主机名相同,否则会导致业务异常。


4 SeerAnalyzer

4.1  grpc enable严禁通过控制组件自定义策略下发

目前园区控制组件不支持自动化下发GRPC相关配置,同时严禁通过控制组件自定义策略下发相关GRPC配置。

4.2  S5560XS6520X系列设备配套SA限制

由于5560x/6520x系列设备性能较差,在系列设备做leaf的组网环境中,该系列设备上不要使能GRPC的相关配置;SA网络解析任务中不要配置问题中心监控解析任务和问题中心监控任务。

4.3  统一数字底盘的E0607之前的版本SA升级需手动添加标签

统一数字底盘的E0607之前的版本,若带SA升级时,升级完成后需要手动给pod添加标签,否则SApod处于pending状态:

出现上述问题之后,在主节点后台执行如下命令:

cd /opt/matrix/app/install/metadata/SA/scripts/

sh -x addLabelNodes.sh

4.4  部署WSM SeerAnalyzerCloudnet时的注意事项

(1)     SeerAnalyzer组件的安装依赖于Cloudnet组件。

(2)     WSMCloudnet组件单独分开部署时,建议先部署Cloudnet组件。


5 ARP泛洪优化

针对园区网中容易出现ARP泛洪冲击Leaf CPU的问题,可以按照对应场景增加如下优化措施:

5.1  开启指定源MAC地址的ARP报文限速功能

配置命令:全局配置arp source-mac filter/monitor + arp source-mac threshold threshold-value(该阈值可配置,具体数值需综合考虑现网流量)

场景:攻击报文为源MAC固定的ARP报文

Filter效果:在5秒内,如果收到同一源MAC地址(源MAC地址固定)的ARP报文超过一定的阈值,将该MAC加入黑洞MAC,不再处理其报文。

Filter缺点:会导致该用户流量中断,请谨慎配置

Moniter效果:在5秒内,如果收到同一源MAC地址(源MAC地址固定)的ARP报文超过一定的阈值,只打印日志信息,不会将该源MAC地址发送的ARP报文过滤掉。

Moniter目的:记录哪些终端发送过大量ARP

5.2  配置广播抑制和未知单播抑制

配置命令:

broadcast-suppression pps xxx(该阈值可配置,具体数值需综合考虑现网流量)

unicast-suppression pps xxx(该阈值可配置,具体数值需综合考虑现网流量)

5.3  开启ARP报文限速功能

配置命令:arp rate-limit xxx(该阈值可配置,具体数值需综合考虑现网流量)

效果:对上送CPUARP报文进行限速,可以防止大量ARP报文对CPU进行冲击。设备上配置ARP报文限速功能后,当接口上单位时间收到的ARP报文数量超过用户设定的限速值,超过限速部分的报文会被丢弃。

新华三官网
联系我们