手册下载
03-H3C交换机M-LAG升级[替换][扩容]指导-整本手册.pdf (551.44 KB)
|
|
H3C交换机M-LAG升级、替换、扩容指导 |
|
|
资料版本:6W100-20221130 |
Copyright © 2022 新华三技术有限公司及其许可者 版权所有,保留一切权利。
未经本公司书面许可,任何单位和个人不得擅自摘抄、复制本书内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
由于产品版本升级或其他原因,本手册内容有可能变更。H3C保留在没有任何通知或者提示的情况下对本手册的内容进行修改的权利。本手册仅作为使用指导,H3C尽全力在本手册中提供准确的信息,但是H3C并不确保手册内容完全没有错误,本手册中的所有陈述、信息和建议也不构成任何明示或暗示的担保。
1.7.1 待替换业务板上不存在peer-link链路成员端口、Keepalive链路端口
1.7.2 待替换业务板上存在peer-link链路成员端口
1.7.4 待替换主控板上存在Keepalive链路端口(双主控环境,管理口作keepalive链路端口)
M-LAG(Multichassis link aggregation,跨设备链路聚合)是一种跨设备链路聚合技术,通过将两台物理设备在聚合层面虚拟成一台设备来实现跨设备链路聚合,从而提供设备级冗余保护和流量负载分担,提升了网络的可靠性和升级的便捷性。
本文将介绍如下两种M-LAG设备升级方式:
· M-LAG传统升级方式
· 维护模式下的M-LAG升级方式(支持GIR功能的设备推荐使用此方式)
GIR提供了一种设备隔离方案,适用于设备进行维护或升级的场景。通过GIR模式切换功能,可以一次下发多个业务模块的隔离命令,各业务协议模块会先将流量切换至冗余路径,再将设备置于维护模式,此时处于维护模式下的设备与其他设备之间网络隔离。当完成维护或者升级操作之后,将设备切换到普通模式,恢复流量的正常转发和处理。有关GIR功能的详细介绍请参见产品“基础配置指导”中的“GIR”或软件特性变更说明。
M-LAG传统升级是指对M-LAG的两台设备分别进行重启升级。当前所有支持M-LAG的设备在所有场景下都支持M-LAG传统升级方式。
升级流程如图1-1所示,先升级M-LAG系统中的一台设备,待M-LAG状态和业务都正常后,再进行另一台M-LAG设备的升级。两台M-LAG设备的升级顺序对业务的影响结果相同。如果选择先升级从设备,后升级主设备,升级完成后,设备的主备角色和升级前不同。
图1-1 M-LAG传统升级方式过程流程图
维护模式下的M-LAG升级方式,也是两台设备分别进行重启升级,区别在于:维护模式下的M-LAG升级,需要先配置M-LAG中一台待升级设备为维护模式,将流量从待升级设备切到M-LAG的备份设备,重启待升级设备完成升级,再将设备从维护模式切回到普通模式,整个升级过程中零丢包(单挂场景除外),提高了升级的可靠性。
维护模式升级过程如图1-2所示:将一台M-LAG设备配置为维护模式后,流量会自动切换到另一台M-LAG设备,然后进行设备升级,待升级重新启动完成且M-LAG运行状态恢复后,再将设备从维护模式切回到普通模式,流量回切。确认M-LAG设备状态和业务都正常后,再升级另一台M-LAG设备。另一台M-LAG设备的升级过程相同,这里不再赘述。两台M-LAG设备的升级顺序对业务的影响结果相同。如果选择先升级从设备,后升级主设备,升级完成后,设备的主备角色和升级前不同。
图1-2 维护模式下的M-LAG升级方式过程流程图
采用M-LAG传统升级方式时(未开启STP),业务中断时间在500ms以内(单挂场景除外)。采用维护模式下的M-LAG升级方式时(未开启STP),可以做到升级零丢包,包括Overlay组网leaf的M-LAG东西向流量,Underlay组网的南北向流量等。
由于STP状态切换时间较长,收敛时间可能达几十秒。在STP的组网中,为了加快收敛时间,如果对端是服务器或三层接口,可以配置stp edged-port(配置为STP边缘端口)或者undo stp enable(关闭接口STP功能)加快收敛。如果对端为交换机或防火墙但是没有环路风险,也可以进行上述配置。
· 设备的显示信息以实际情况为准,本文以S6850产品显示为例。
· 为了方便查看和记录显示信息,可以在用户视图执行screen-length disable命令关闭当前用户的分屏显示功能。
使用display version命令查看设备正在运行的系统软件的版本。
<Sysname> display version
H3C Comware Software, Version 7.1.070, Feature 6632
Copyright (c) 2004-2021 New H3C Technologies Co., Ltd. All rights reserved.
H3C S6850-56HF uptime is 0 weeks, 4 days, 1 hour, 44 minutes
Last reboot reason : User reboot
使用display device命令查看设备工作状态,确认设备工作正常。
<Sysname> display device
Slot Type State Subslot Soft Ver Patch Ver
1 S6850-56HF Master 0 S6850-56HF-6632 None
设备正常工作下的“State”字段应该为“Master”。
使用display system stable state命令查看设备工作在稳定状态。
<Sysname> display system stable state
System state : Stable
Redundancy state : No redundance
Slot CPU Role State
1 0 Active Stable
设备正常工作下的“State”字段应该为“Stable”。
使用display memory命令查看设备内存使用情况,升级完成后再次查看并与升级前对比是否有较大差别,如果差别较大需要排查升级后设备是否存在异常。
<Sysname> display memory
Memory statistics are measured in KB:
Slot 1:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 8090436 1633592 6456844 0 3672 187888 79.8%
-/+ Buffers/Cache: 1442032 6648404
Swap: 0 0 0
使用display cpu-usage命令查看CPU利用率统计信息,升级完成后再次查看并与升级前对比是否有较大差别,如果差别较大需要排查升级后设备是否存在异常。
<Sysname> display cpu-usage
Slot 1 CPU 0 CPU usage:
1% in last 5 seconds
1% in last 1 minute
1% in last 5 minutes
使用display m-lag summary命令查看M-LAG工作状态,确认M-LAG设备工作正常。
<Sysname> display m-lag summary
Flags: A -- Aggregate interface down, B -- No peer M-LAG interface configured
C -- Configuration consistency check failed
Peer-link interface: BAGG1
Peer-link interface state (cause): UP
Keepalive link state (cause): UP
M-LAG interface information
M-LAG IF M-LAG group Local state (cause) Peer state Remaining down time(s)
BAGG2 2 UP UP -
BAGG3 3 UP UP -
设备正常工作下的“Peer-link interface state”字段应该为“UP”。
使用display m-lag keepalive命令显示Keepalive报文的信息。
<Sysname> display m-lag keepalive
Neighbor keepalive link status: Up
Neighbor is alive for: 135642 s 501 ms
Keepalive packet transmission status:
Sent: Successful
Received: Successful
Last received keepalive packet information:
Source IP address: 10.0.0.2
Time: 2021/12/11 09:21:51
Action: Accept
M-LAG keepalive parameters:
Destination IP address: 10.0.0.2
Source IP address: 10.0.0.1
Keepalive UDP port : 6400
Keepalive VPN name : vpn1
Keepalive interval : 1000 ms
Keepalive timeout : 5 sec
Keepalive hold time: 3 sec
使用display m-lag role 命令显示M-LAG角色信息。
<Sysname> display m-lag role
Effective role information
Factors Local Peer
Effective role Primary Secondary
Initial role None None
MAD DOWN state Yes Yes
Health level 0 0
Role priority 32768 32768
Bridge MAC 3cd4-3ce1-0200 3cd4-437d-0300
Effective role trigger: Peer link calculation
Effective role reason: Bridge MAC
Configured role information
Factors Local Peer
Configured role Primary Secondary
Role priority 32768 32768
Bridge MAC 3cd4-3ce1-0200 3cd4-437d-0300
使用display m-lag system命令显示M-LAG系统信息。
<Sysname> display m-lag system
System information
Local system number: 1 Peer system number: 2
Local system MAC: 0001-0001-0001 Peer system MAC: 0001-0001-0001
Local system priority: 123 Peer system priority: 123
Local bridge MAC: 3cd4-3ce1-0200 Peer bridge MAC: 3cd4-437d-0300
Local effective role: Primary Peer effective role: Secondary
Health level: 0
Standalone mode on split: Enabled
In standalone mode: No
System timer information
Timer State Value (s) Remaining time (s)
Auto recovery Disabled - -
Restore delay Disabled 300 -
Consistency-check delay Disabled 15 -
Standalone delay Disabled - -
Role to None delay Disabled 60 -
检查m-lag restore-delay命令配置的延迟恢复时间是否合适。如果延迟恢复时间过短,M-LAG设备重启后未完成表项同步端口就UP了,会产生较多丢包。m-lag restore-delay的配置建议请参考M-LAG配置指导书。
对于框式双主控设备,升级前可以配置NSR(Nonstop Routing,不间断路由)以减少升级过程中的业务中断时间。
使用dir命令查看Flash的剩余空间,确认Flash中有足够的剩余空间容纳待升级的版本文件。
<Sysname> dir
Directory of flash:
0 -rw- 80264 DEC 11 2021 00:33:57 startup.mdb
1 -rw- 3523 DEC 11 2021 00:33:56 startup.cfg
2 -rw- 9959424 DEC 11 2021 16:04:08 boot.bin
3 -rw- 53555200 DEC 11 2021 16:04:08 system.bin
4 drw- - DEC 11 2021 00:03:07 seclog
5 drw- - DEC 11 2021 00:03:07 versionInfo
6 -rw- 91273216 DEC 11 2021 09:54:27 backup.bin
1048576 KB total (897252 KB free)
显示信息中灰色显示部分为设备Flash中的剩余空间。如果剩余空间不够,需要删除无用文件。在用户视图下执行delete /unreserved flash:/filename 删除Flash上多余的文件。
M-LAG设备升级前查看MAC地址表、ARP表、路由邻居、路由表、FIB表等信息,升级完成后再次查看以确认升级后业务运行是否正常。
命令 |
描述 |
display mac-address |
查看MAC地址表信息 |
display arp |
查看ARP表项 |
display ipv6 neighbors |
查看IPv6邻居信息 |
display ip interface brief |
查看三层接口地址信息 |
display ospf peer |
查看OSPF邻居信息 |
display ospfv3 peer |
查看OSPFv3邻居信息 |
display bgp peer ipv4 |
查看BGP IPv4对等体信息 |
display bgp peer ipv6 |
查看BGP IPv6对等体信息 |
display isis peer |
查看ISIS邻居信息 |
display ip routing-table display ip routing-table all-routes display ipv6 routing-table display ipv6 routing-table all-routes |
查看路由表信息 |
display fib display ipv6 fib |
查看FIB表信息 |
display vrrp display vrrp ipv6 |
查看VRRP备份组状态信息 |
display current-configuration |
显示设备当前配置信息 |
准备升级需要的文件,包括启动软件包、补丁包和配置文件。
启动软件包一方面提供对硬件的驱动和适配功能,另一方面实现了业务特性。启动软件包按其功能分为:
· Boot软件包:包含操作系统内核的包,提供进程管理、内存管理、文件系统管理、应急Shell等功能。
· System软件包:包含设备运行必须的模块和基本功能模块,比如设备管理、接口管理、配置管理和路由模块等。
设备必须具有Boot包和System包才能正常运行。这些软件包可以单独发布,也可以集成为一个IPE(Image Package Envelope,复合软件包套件)文件统一发布,以减少启动软件包之间的版本管理问题。
· 本系列以太网交换机的启动软件包和BootRom文件通常打包成一个后缀名为.ipe的启动软件包(例如:main.ipe)。
· 当指定设备的下次启动软件包为IPE文件时,系统会自动将IPE文件中包含的所有.bin软件包提取出来,并设置为下次启动软件包。
补丁包用于在不重启设备的情况下快速修复系统缺陷。补丁是一种快速、低成本修复产品软件版本缺陷的方式。与通过重启方式升级启动软件包相比,补丁的主要优势是不会使设备当前正在运行的业务中断,在不重启设备的情况下,可以对设备当前软件版本的缺陷进行修复。
配置文件是用来保存配置的文件。设备重启后,这些配置继续生效。当网络中多台设备需要批量配置时,可以将相同的配置保存到配置文件,再上传/下载到所有设备,在所有设备上执行该配置文件来实现设备的批量配置。
升级前,需要准备以下工具:
· 操作终端,可以是台式机或者便携机。
· 网线、串口线。
· FTP Server/SFTP Server软件或TFTP Server软件。
FTP Server/SFTP Server软件、TFTP Server软件需要用户自己购买、安装,设备不附带此软件。
搭建通过TFTP或FTP协议升级的环境时,基本要求如下:
· 使用串口线连接PC的串口和设备的Console口。
· 使用网线连接PC的网口和设备的管理用以太网接口。
完成升级环境搭建后,使用FTP/SFTP或者TFTP协议将软件包下载到设备上。
下载软件包到设备后,在用户视图执行md5sum命令,计算软件包的摘要值,将该摘要值与版本发布流程中MD5文件中的值对比。如果验证一致,则表示软件包正确、完整;如果验证不一致,需要重新下载软件包。
两台M-LAG设备均需断开与控制器的连接。断开后,可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为idle表示断开。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Idle
Connect state : Idle
(1) 指定下次启动使用的启动文件。
<Sysname> boot-loader file flash:/s9850_6850-f6633.ipe all main
(2) 查看设备下次启动所用的启动文件是否为新加载的启动文件。
<Sysname> display boot-loader
Software images on slot 1:
Current software images:
flash:/s9850_6850-cmw710-boot-f6632.bin
flash:/s9850_6850-cmw710-system-f6632.bin
Main startup software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Backup startup software images:
None
请按照如下顺序关闭设备上的物理端口。只需要关闭物理端口,不需要关闭聚合接口、VLAN接口、Tunnel接口、VSI接口等逻辑接口。
(1) 关闭所有业务端口,先关闭下行端口,再关闭上行端口;
(2) 关闭keepalive链路物理端口;
(3) 关闭peer-link链路物理端口。
在待升级设备较多,业务中断时间不特别敏感的场景也可以使用接口批量配置方式(interface range)批量关闭所有物理接口或直接将设备下电。
执行reboot命令重新启动设备,设备会用新加载的启动软件进行启动。
<Sysname> reboot
Start to check configuration with next startup configuration file, please wait.........DONE!
Current configuration may be lost after the reboot, save current configuration? [Y/N]:y -----输入y保存配置文件
Please input the file name(*.cfg)[flash:/m-lag_old.cfg]
(To leave the existing filename unchanged, press the enter key):startup.cfg
Validating file. Please wait...
Saved the current configuration to mainboard device successfully.
This command will reboot the device. Continue? [Y/N]:y --------输入y重启设备
(1) 检查版本文件是否已升级为目标文件
<Sysname> display boot-loader
Software images on slot 1:
Current software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Main startup software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Backup startup software images:
None
(2) 检查设备运行状态是否正常
使用display device命令查看设备运行状态。正常情况下,设备状态应该为”Master”。
<Sysname> display device
Slot Type State Subslot Soft Ver Patch Ver
1 S6850-56HF Master 0 S6850-56HF-6633 None
(3) 检查配置是否恢复
启动完成后,在任意视图下使用display current-configuration命令查看交换机当前的配置信息。可以在任意视图下使用display diff current-configuration configfile flash:/XXX.cfg比较当前的配置文件与存储设备中保存的配置文件,查看是否存在配置丢失或更改的情况。
当2. 隔离M-LAG设备中选择关闭物理接口的隔离方式时,请按照如下顺序开启设备上的物理端口。
(1) 开启peer-link链路物理端口;
(2) 开启keepalive链路物理端口;
(3) 开启所有业务端口,先开启上行端口,再开启下行端口。
开启peer-link链路物理端口,M-LAG系统重新形成后,业务端口经过m-lag restore-delay(单位为秒)命令配置的延迟恢复时间之后才能UP。建议经过延迟恢复时间之后再进行开启端口的操作。
如果2. 隔离M-LAG设备中选择了直接下电的方式,则不涉及本步骤。
检查业务是否正常的两种方法:
· 将收集的各种表项(如路由表、FIB表、MAC地址表等)与升级之前的表项进行对比,检查是否有丢失;对比升级前后的业务流量是否一致。
· 跟运维人员一起查看当前业务是否正常,服务器等能否正常运行。
如果业务运行异常需要回退版本,请重复执行本节内容将版本回退至升级前的版本。
升级步骤与1.3.2 升级M-LAG系统中的一台设备步骤一致,这里不再赘述。
如果业务运行异常需要回退版本,请先将本设备版本回退,再将先升级的M-LAG设备版本回退。
可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为Established表示成功建立连接。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Established
Connect state : Established
恢复与控制器的连接后,需要再次检查业务状态,如果业务运行异常,请按如下顺序回退版本:
(1) 断开与控制器的连接;
(2) 回退后升级的M-LAG设备版本;
(3) 回退先升级的M-LAG设备版本。
如果故障设备仍可运行,请保存并下载故障设备的配置文件。需要注意的是,如果故障设备进行过应急处理的配置(例如故障接口被shutdown,部署过流量统计功能等),获取故障设备配置文件后,需要删除应急处理的配置。
如果故障设备已不可运行,请尝试通过客户备份配置文件的相关平台/工具获取备份配置。请确认备份配置与在网配置一致后再进行配置导入。确认方法有:确认备份后该设备是否存在变更操作,或者对比正常运行的另一台M-LAG设备配置。
升级版本与在网设备版本保持一致,升级步骤请参考“1.3.2 升级M-LAG系统中的一台设备”。
将新设备所有物理端口关闭。为了方便执行故障设备替换操作,可以根据需要将新设备下电。
新设备需要在连接好线缆后才能接入网络运行,否则可能导致较长时间丢包。
关闭故障设备所有物理端口或故障设备下电。待替换设备较多时建议采用下电的方式。
· 故障设备原位替换
a. 在业务变更时间窗口内,与业务部门确认变更可执行后,将故障设备关电下架。设备关电会造成业务瞬时闪断(非敏感业务影响可忽略),过程中可以持续进行Ping操作,观察记录业务中断或丢包时间。
b. 新设备原位上架。
c. 在非上电或全部物理端口关闭的状态下,将新设备与对端M-LAG设备连接好peer-link物理链路。
· 故障设备非原位替换
a. 新设备完成版本升级与配置文件导入后上架至规定位置。
b. 在业务变更时间窗口内,与业务部门确认变更可执行后,将故障设备关电下架。设备关电会造成业务瞬时闪断(非敏感业务影响可忽略),过程中可以持续进行Ping操作,观察记录业务中断或丢包时间。
c. 在非上电或全部物理端口关闭的状态下,为新设备连接线缆。
(1) 如果在替换故障设备之前新设备被下电,请将新设备上电启动。
(2) 开启peer-link链路物理端口。
(3) 检查M-LAG配置一致性。
# 显示二层聚合接口Type 1类型的配置一致性信息。
<Sysname> display m-lag consistency type1 interface bridge-aggregation 1//以聚合接口1为例
LAGG consistency check: Success
Local aggregation mode: Dynamic
Peer aggregation mode: Dynamic
VLAN consistency check :Success
Local link type: Trunk
Peer link type: Trunk
Local PVID: 10
Peer PVID: 10
STP consistency check: Success
Local STP protocol state: Enabled
Peer STP protocol state: Enabled
# 显示全局的Type 2类型的配置一致性信息。
<Sysname> display m-lag consistency type2 global
VLAN consistency check: Success
Local VLAN interfaces:
2-10, 15, 20-30, 40, 50
Peer VLAN interfaces:
2-10, 15, 20-30, 40, 50
Passing PVID and VLANs (tagged) on local peer-link interface:
1
Passing PVID and VLANs (tagged) on peer peer-link interface:
1
Invalid VLANs on local peer-link interface:
None
(4) 请按如下顺序开启除了peer-link物理链路接口外的其他接口:
M-LAG系统形成后,新设备业务端口经过m-lag restore-delay(单位为秒)命令配置的延迟恢复时间之后才能UP。建议经过延迟恢复时间之后再进行开启端口的操作。
a. 开启上行接口,确认上行协议状态,例如OSPF邻居是否完成建立,LACP聚合状态是否符合预期。
b. 开启下行接口,业务流会逐步切换至新设备,连接过程中可通过持续的Ping操作观察业务是否有中断或丢包。
c. 开启keeplive接口,确认keeplive链路已经建立并且设备接口没有被MAD Down。
<Sysname> display m-lag keepalive
Neighbor keepalive link status: Up//确认对端设备存在,可以正常收发Keepalive报文
Neighbor is alive for: 135642 s 501 ms
Last keepalive packet sending status: Successful
Last keepalive packet sending time: 2021/12/11 18:23:53 986 ms
Last keepalive packet receiving status: Successful
Last keepalive packet receiving time: 2021/12/11 18:23:54 99 ms
M-LAG keepalive parameters:
Destination IP address: 10.0.0.2
Source IP address: 10.0.0.1
Keepalive UDP port : 6400
Keepalive VPN name : vpn1
Keepalive interval : 1000 ms
Keepalive timeout : 5 sec
Keepalive hold time: 3 sec
<Sysname> display m-lag mad verbose
M-LAG MAD DOWN state: No //确认设备所有接口均未被设置为M-LAG MAD DOWN状态
Restore delay: 30 s
Remaining restore delay: -
M-LAG MAD default action: DOWN
M-LAG MAD DOWN persistence: Disabled
Excluding logical interfaces: Disabled
Port configuration for M-LAG MAD DOWN action:
Included ports(user-configured):
Included ports(system-configured):
Excluded ports(user-configured):
Excluded ports(system-configured):
Management interfaces:
M-GigabitEthernet0/0/0
M-GigabitEthernet0/0/1
M-LAG interfaces:
Bridge-Aggregation4
Peer-link interface:
Bridge-Aggregation3
Member interfaces of peer-link interface Bridge-Aggregation3:
Twenty-FiveGigE1/0/1
Twenty-FiveGigE1/0/2
(1) 确认物理接口的管理状态不是关闭(即状态不是Administratively DOWN或ADM),状态为UP。
参考命令:display interface brief
(2) 确认聚合口状态是否符合预期。
a. 确认聚合成员口是否为选中状态
参考命令:display link-aggregation verbose bridge-aggregation
b. 确认聚合口带宽值是否符合预期
参考命令:display interface brief
(3) 检查业务是否正常
跟运维人员一起查看当前业务是否正常,服务器等能否正常运行。
可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为Established表示成功建立连接。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Established
Connect state : Established
恢复与控制器的连接后,需要再次检查业务状态,如果业务运行异常,请先断开与控制器的连接,排除故障后再重新连接。
两台M-LAG设备均需断开与控制器的连接。断开后,可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为idle表示断开。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Idle
Connect state : Idle
执行gir system-mode maintenance命令配置M-LAG设备进入维护模式,相关路由和聚合均自动下发隔离,流量切换到另一台M-LAG设备。
不建议针对路由和聚合业务分别配置隔离功能,避免因遗漏配置导致丢包等问题。
<Sysname> system-view
[Sysname] gir system-mode maintenance
Collecting commands... Please wait.
Configuration to be applied:
bgp 200
isolate enable
isis 1
isolate enable
isis 2 vpn-instance vpna
isolate enable
ospf 1 router-id 11.11.11.11
isolate enable
ospfv3 1
isolate enable
link-aggregation lacp isolate
Do you want to continue? [Y/N]: y ---------需要输入y,确认配置为维护模式
Generated a snapshot: before_maintenance.
Applying: bgp 200...OK
Applying: isolate enable...OK
Applying: isis 1...OK
Applying: isolate enable...OK
Applying: isis 2 vpn-instance vpna...OK
Applying: isolate enable...OK
Applying: ospf 1 router-id 11.11.11.11...OK
Applying: isolate enable...OK
Applying: ospfv3 1...OK
Applying: isolate enable...OK
Applying: link-aggregation lacp isolate...OK
Changed to maintenance mode successfully.
请保存维护模式的配置,再继续后续升级。如果不保存配置,升级成功重新启动后,设备为普通模式,流量回切会有丢包。
(1) 指定下次启动使用的启动文件。
<Sysname> boot-loader file flash:/s9850_6850-f6633.ipe all main
(2) 查看设备下次启动所用的启动软件是否为新加载的启动软件。
<Sysname> display boot-loader
Software images on slot 1:
Current software images:
flash:/s9850_6850-cmw710-boot-f6632.bin
flash:/s9850_6850-cmw710-system-f6632.bin
Main startup software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Backup startup software images:
None
(3) 重启设备
执行reboot命令重新启动设备,设备会用新加载的启动软件进行启动。
<Sysname> reboot
Start to check configuration with next startup configuration file, please wait.........DONE!
Current configuration may be lost after the reboot, save current configuration? [Y/N]:y -----输入y,需要保存维护模式的命令
Please input the file name(*.cfg)[flash:/m-lag_old.cfg]
(To leave the existing filename unchanged, press the enter key):startup.cfg ------可以指定新的配置文件名称,也可以覆盖现有配置
Validating file. Please wait...
Saved the current configuration to mainboard device successfully.
This command will reboot the device. Continue? [Y/N]:y --------输入y重启设备
(1) 检查版本文件是否已升级为目标文件
<Sysname> display boot-loader
Software images on slot 1:
Current software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Main startup software images:
flash:/s9850_6850-cmw710-boot-f6633.bin
flash:/s9850_6850-cmw710-system-f6633.bin
Backup startup software images:
None
(2) 检查设备运行状态是否正常
使用display device命令查看设备运行状态。正常情况下,设备状态应该为”Master”。
<Sysname> display device
Slot Type State Subslot Soft Ver Patch Ver
1 S6850-56HF Master 0 S6850-56HF-6633 None
(3) 检查配置是否恢复
启动完成后,在任意视图下使用display current-configuration命令查看设备当前的配置信息。可以在任意视图下使用display diff current-configuration configfile flash:/XXX.cfg比较当前的配置文件与存储设备中保存的配置文件,查看是否存在配置丢失或更改的情况。
(4) 查询M-LAG状态
使用display m-lag summary命令查看M-LAG工作状态,确认M-LAG设备工作正常。
<Sysname> display m-lag summary
Flags: A -- Aggregate interface down, B -- No peer M-LAG interface configured
C -- Configuration consistency check failed
Peer-link interface: BAGG1
Peer-link interface state (cause): UP
Keepalive link state (cause): UP
M-LAG interface information
M-LAG IF M-LAG group Local state (cause) Peer state Remaining down time(s)
BAGG2 2 UP UP -
BAGG3 3 UP UP -
设备正常工作下的”Peer-link interface state”字段应该为”UP”。
(1) 将M-LAG设备切回到普通模式,流量回切
[Sysname] undo gir system-mode maintenance
Collecting commands... Please wait.
Configuration to be applied:
undo link-aggregation lacp isolate
ospfv3 1
undo isolate enable
ospf 1 router-id 11.11.11.11
undo isolate enable
isis 1
undo isolate enable
isis 2 vpn-instance vpna
undo isolate enable
bgp 200
undo isolate enable
Do you want to continue? [Y/N]: y
Applying: undo link-aggregation lacp isolate...OK
Applying: ospfv3 1...OK
Applying: undo isolate enable...OK
Applying: ospf 1 router-id 11.11.11.11...OK
Applying: undo isolate enable...OK
Applying: isis 1...OK
Applying: undo isolate enable...OK
Applying: isis 2 vpn-instance vpna...OK
Applying: undo isolate enable...OK
Applying: bgp 200...OK
Applying: undo isolate enable...OK
Changed to normal mode successfully.
Generated a snapshot: after_maintenance.
(2) 流量回切完成后,验证业务是否正常
检查业务是否正常的两种方法:
· 将收集的各种表项(如路由表、FIB表、MAC地址表等)与升级之前的表项进行对比,检查是否有丢失;对比升级前后的业务流量是否一致。
· 跟运维人员一起查看当前业务是否正常,服务器等能否正常运行。
(3) 保存配置,升级完成
保存配置前,需要保证设备处于普通模式。
升级步骤与1.5.2 升级M-LAG系统中的一台设备步骤一致,这里不再赘述。
可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为Established表示成功建立连接。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Established
Connect state : Established
恢复与控制器的连接后,需要再次检查业务状态,如果业务运行异常,请按如下顺序回退版本:
(1) 断开与控制器的连接;
(2) 回退后升级的M-LAG设备版本;
(3) 回退先升级的M-LAG设备版本。
如果用户对业务收敛时间要求较高,且故障设备可以切换到维护模式,也可以在维护模式下替换设备。
故障设备执行gir system-mode maintenance命令从普通模式切换到维护模式,并保存配置。
如果故障设备仍可运行,请保存并下载故障设备的配置文件。需要注意的是,如果故障设备进行过应急处理的配置(例如故障接口被shutdown,部署过流量统计功能等),获取故障设备配置文件后,需要删除应急处理的配置。
如果故障设备已不可运行,请尝试通过客户备份配置文件的相关平台/工具获取备份配置。请确认备份配置与在网配置一致后再进行配置导入。确认方法有:确认备份后该设备是否存在变更操作,或者对比正常运行的另一台M-LAG设备配置。
升级版本与在网设备版本保持一致,升级步骤请参考1.5.2 3. 指定升级文件并重新启动设备和1.5.2 4. 验证维护模式下的M-LAG升级方式是否成功。
将新设备下电或关闭所有物理端口。新设备需要在连接好线缆后才能接入网络运行,否则可能导致较长时间丢包。
关闭故障设备所有物理端口或故障设备下电。待替换设备较多时建议采用下电的方式。
将新设备原位上架或上架至规定位置。
为新设备连接线缆。
新设备上电或开启所有物理端口。
新设备执行undo gir system-mode maintenance命令从维护模式切回普通模式并保存配置。
(1) 确认物理接口的管理状态不是关闭(即状态不是Administratively DOWN或ADM),状态为UP。
参考命令:display interface brief
(2) 确认聚合口状态是否符合预期。
a. 确认聚合成员口是否为选中状态
参考命令:display link-aggregation verbose bridge-aggregation
b. 确认聚合口带宽值是否符合预期
参考命令:display interface brief
(3) 检查业务是否正常
跟运维人员一起查看当前业务是否正常,服务器等能否正常运行。
可以执行display openflow instance instance-id controller命令检查控制器连接状态,Connect state字段为Established表示成功建立连接。例如:
[Sysname] display openflow instance 1 controller | include state
Connect state : Established
Connect state : Established
恢复与控制器的连接后,需要再次检查业务状态,如果业务运行异常,请先断开与控制器的连接,排除故障后再重新连接。
a. 通过interface range方式将待替换业务板的业务口批量关闭。对于M-LAG接口,本过程涉及的流量切换丢包时间在500ms以内。
b. 执行display m-lag summary命令确认M-LAG状态正常。
c. 执行save命令保存配置。
(2) 用新业务板(与待替换业务板型号一致)替换旧业务板。新业务板端口执行shutdown命令关闭,并且参考待替换端口的配置进行配置(如果新业务板使用和被替换业务板相同的槽位,则无需此操作)。
(3) 将被替换业务板的连接线缆平移到新业务板上。
(4) 确认新业务板状态正常后,恢复新业务板业务。具体步骤如下:
a. 执行display system stable state命令查看新业务板状态是否稳定。
b. 执行display m-lag summary命令确认M-LAG状态正常。
c. 通过interface range方式将新业务板的端口批量开启。对于M-LAG接口,本过程涉及的流量切换丢包时间在150ms以内。
d. 分别执行display counters rate inbound、display counters rate outbound查看新业务板业务口流量转发是否正常。
e. 执行save命令保存配置。
(1) 如果peer-link链路成员端口均位于待替换业务板上,请从步骤(2)开始。如果peer-link链路接口是跨板聚合接口,在其他业务板上也有成员端口,请从步骤(3)开始。
(2) 在其他业务板上新增物理链路加入到peer-link链路聚合组。具体步骤如下:
a. 在新增链路端口执行shutdown关闭端口,配置该端口和peer-link链路聚合接口VLAN属性相同(包括端口的链路类型、允许通过的VLAN、缺省VLAN),否则该端口不能加入peer-link链路聚合组。
· 建议选择与原peer-link链路物理端口速率相同的端口。如果新加入peer-link链路聚合组的端口速率和原peer-link链路物理端口速率不一致,需要先在peer-link链路聚合接口配置link-aggregation ignore speed命令,使聚合组选择选中端口时忽略端口速率,再将该端口加入peer-link链路聚合组,否则新加入peer-link链路聚合组的端口可能不能成为选中端口。
· 业务板替换完成之后,请确保peer-link链路的物理端口速率一致并删除link-aggregation ignore speed命令,如果聚合组中选中端口速率不同,聚合组中流量负载分担时,速率较小的选中端口可能存在丢包现象。
· 建议新增peer-link链路物理链路的速率之和与待替换业务板上peer-link链路物理链路速率一致,否则业务板替换后可能在peer-link链路上形成拥塞。
b. 执行port link-aggregation group命令将新增链路加入到peer-link链路聚合组。
c. 在新增链路端口执行undo shutdown开启端口。
d. 执行display link-aggregation verbose bridge-aggregation命令查看peer-link链路聚合接口正常,新增peer-link链路物理链路的端口为选中状态,执行display m-lag summary命令确认M-LAG状态正常。
a. 先执行shutdown关闭peer-link链路成员端口。
b. 执行display m-lag summary命令确认M-LAG状态正常。
c. 通过interface range方式将待替换业务板的其它业务口批量关闭。对于M-LAG接口,本过程涉及的流量切换丢包时间在500ms以内。
d. 执行save命令保存配置。
(4) 用新业务板(与待替换业务板型号一致)替换旧业务板。新业务板端口执行shutdown命令关闭,并且参考待替换端口的配置进行配置(如果新业务板使用和被替换业务板相同的槽位,则无需此操作)。
(5) 将被替换业务板的连接线缆平移到新业务板上。
(6) 确认新业务板状态正常后,恢复新业务板业务。具体步骤如下:
a. 执行display system stable state命令查看新业务板状态是否稳定。
b. 新业务板状态稳定之后执行undo shutdown命令开启peer-link链路成员端口。
c. 执行display link-aggregation verbose bridge-aggregation命令查看peer-link链路聚合接口正常,执行display m-lag summary命令确认M-LAG状态正常。
d. 通过interface range方式将新业务板的其它业务口批量开启。对于M-LAG接口,本过程涉及的流量切换丢包时间在150ms以内。
e. 分别执行display counters rate inbound、display counters rate outbound查看新业务板业务口流量转发是否正常。
f. 执行save命令保存配置。
(1) Keepalive链路端口执行shutdown命令关闭端口。
a. 通过interface range方式将待替换业务板的其它业务口批量关闭。对于M-LAG接口,本过程涉及的流量切换丢包时间在500ms以内。
b. 执行save命令保存配置。
(3) 用新业务板(与待替换业务板型号一致)替换旧业务板。新业务板端口执行shutdown命令关闭,并且参考待替换端口的配置进行配置(如果新业务板使用和被替换业务板相同的槽位,则无需此操作)。
(4) 将被替换业务板的连接线缆平移到新业务板上。
(5) 确认新业务板状态正常后,恢复新业务板业务。具体步骤如下:
a. 执行display system stable state命令查看新业务板状态是否稳定。
b. 新业务板状态稳定之后执行undo shutdown命令开启Keepalive链路端口。
c. 执行display m-lag summary命令确认M-LAG状态正常。
d. 通过interface range方式将新业务板的其它业务口批量开启。对于M-LAG接口,本过程涉及的流量切换丢包时间在150ms以内。
e. 分别执行display counters rate inbound、display counters rate outbound查看新业务板业务口流量转发是否正常。
f. 执行save命令保存配置。
(1) 在设备上配置黑洞路由(100.1.102.21x为控制器IP)使设备与控制器断开连接。
ip route-static vpn-instance MGMT 100.1.102.212 32 NULL 0
ip route-static vpn-instance MGMT 100.1.102.213 32 NULL 0
ip route-static vpn-instance MGMT 100.1.102.214 32 NULL 0
(2) 保存配置后拔出待替换主控板。
(3) 插入新主控板,并为新主控板连接线缆。
(4) 执行display system stable state命令查看新主控板状态是否稳定。
(5) 新主控板状态稳定之后执行display m-lag summary命令确认M-LAG状态正常。
(6) 执行undo ip route-static命令删除指向控制器的黑洞路由,恢复与控制器的连接。
(7) 执行save命令保存配置。
本文描述的扩容操作针对客户已经有一台设备配置了M-LAG,新增一台M-LAG设备与已有设备组成M-LAG系统的场景。
(1) 将新设备安装到机柜,为新设备上电并指定版本文件启动。请注意设备启动后先不要连接线缆。
(2) 参考已有M-LAG设备的配置对新设备进行配置。配置新设备时请参考如下指导:
¡ 建议采用复制已有M-LAG设备配置文件,然后修改差异的方式生成新设备的配置文件。本文所列举的差异仅供参考,请根据实际业务配置评估两台M-LAG设备的配置差异。
¡ M-LAG系统配置两台M-LAG成员设备配置存在差异,请注意在新设备上处理:
- m-lag system-number:两台成员设备需要配置不同的系统编号。
- m-lag role priority:建议将新设备配置为M-LAG备设备,可通过m-lag role priority命令配置设备的角色优先级,优先级值小的为主设备。
- m-lag keepalive:两台M-LAG设备的Keepalive报文目的地址和源地址根据实际情况配置。
- evpn m-lag local:本地VTEP地址和远端VTEP地址根据实际情况配置。
- vxlan default-decapsulation:如果本端接收到的VXLAN报文的目的地址为指定源接口的IPv4地址,则本端会解封装该报文,根据实际情况配置为新设备接口。
- m-lag mad exclude interface、m-lag mad include interface根据实际情况配置为新设备接口。
¡ 三层接口地址、Router ID、BGP对等体地址等根据新设备实际情况修改。
¡ 如下硬件资源模式类配置请与已有M-LAG设备配置一致,完成配置后可以执行display hardware-resource命令检查配置。硬件资源模式类配置需要重启设备生效。
- hardware-resource switch-mode:配置MAC地址表、ARP表/ND表、路由表的硬件资源模式。
- hardware-resource routing-mode ipv6-128:开启前缀大于64位的IPv6路由功能。
- hardware-resource vxlan:配置VXLAN的硬件资源模式。
上述命令的支持情况与设备型号有关,请以设备的实际情况为准。
¡ 完成配置请执行save命令保存配置。
(3) 新设备所有待连线端口执行shutdown命令关闭端口,包括管理用以太网接口。
(4) 为新设备连接线缆。
a. 如果新设备已被控制器纳管,需要先配置如下黑洞路由(100.1.102.21x为控制器IP)使设备与控制器断开连接。
ip route-static vpn-instance MGMT 100.1.102.212 32 NULL 0
ip route-static vpn-instance MGMT 100.1.102.213 32 NULL 0
ip route-static vpn-instance MGMT 100.1.102.214 32 NULL 0
b. peer-link链路接口执行undo shutdown命令开启接口。
c. 在新设备上执行display m-lag summary命令确认M-LAG状态正常,确保扩容设备为M-LAG备设备。
d. Keepalive链路接口(管理用以太网接口)执行undo shutdown命令开启接口,并执行display m-lag summary命令确认M-LAG状态正常。
e. 连接Spine设备的上行接口执行undo shutdown命令开启接口。
f. 查看路由邻居是否正常,请根据具体路由协议选择相应的命令查看。
命令 |
描述 |
display ospf peer |
查看OSPF邻居信息 |
display ospfv3 peer |
查看OSPFv3邻居信息 |
display bgp peer ipv4 |
查看BGP IPv4对等体信息 |
display bgp peer ipv6 |
查看BGP IPv6对等体信息 |
display bgp peer l2vpn evpn |
显示BGP EVPN对等体或对等体组的信息 |
display isis peer |
查看ISIS邻居信息 |
g. 下行链路接口执行undo shutdown命令开启接口,并执行display m-lag summary命令确认M-LAG状态正常。
h. 在有控制器的环境,执行undo ip route-static命令删除指向控制器的黑洞路由,恢复与控制器的连接。本操作不会影响现有其它业务。
i. 执行save命令保存配置。