手册下载
H3C 数据中心网络解决方案 Underlay网络设计指南-6W100-整本手册.pdf (823.71 KB)
H3C数据中心网络解决方案
Underlay网络设计指南
资料版本:6W100-20221206
Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
数据中心网络指的是连接数据中心内部的海量服务器、连接分布式数据中心以及连接数据中心与终端用户之间的网络。数据中心底层(Underlay)连接协议逐步从以二层协议为主演进到以IP路由协议为主。受计算规模的驱动,数据中心物理拓扑从接入-汇聚-核心三级网络架构演进到基于CLOS的Spine-Leaf架构。相比于传统网络的三层架构,Spine-Leaf网络进行了扁平化,变成了两层架构。
本文主要介绍Spine-Leaf架构的Underlay网络。
Underlay网络采用Spine-Leaf架构,使用OSPF或EBGP协议实现Server与Server、Server与外部网络路由互通,leaf之间部署M-LAG实现接入可靠性。
根据接入服务器数量、接口带宽和类型、网络收敛比设计,选择合适的交换机款型,灵活配置Spine、Leaf节点数量,构建层次分明、可弹性扩缩、具备很强业务叠加功能的数据中心网络。
在H3C数据中心解决方案中,典型的数据中心Fabric网络结构具有以下几个特点:
· 支持一个或多个Spine-Leaf结构;
· Spine、Leaf节点数目可以灵活设置、弹性扩缩;
· 二层采用VLAN隔离,三层采用VPN隔离。
对于Spine-Leaf架构的组网,推荐以下组网形态:
· Leaf部署M-LAG实现接入可靠性
· Leaf和Spine之间采用三层互联,使用OSPF或EBGP协议,实现等价多路径负载均衡和链路备份。
H3C推荐数据中心网络内部采用由S68xx系列、S98xx系列、S12500系列交换机组成的Spine-Leaf结构,并根据网络规模来灵活配置Spine和Leaf的节点数量。
图2-1 Spine-Leaf结构典型组网
Spine节点与Leaf节点之间使用三层以太网接口互联,构建全IP Fabric网络。
· Leaf可使用M-LAG、S-MLAG或IRF(堆叠)提高可靠性,避免单点故障,推荐使用M-LAG。
· 每一个Leaf节点与所有Spine节点相连,构建全连接拓扑形态组网。
· Leaf节点的TOR(Top of Rack,架顶)设备数量较多,建议通过控制器自动下发配置或ZTP(Zero Touch Provisioning,零配置自动开局)的方式部署,降低部署复杂度。
ZTP是指新出厂或空配置设备上电启动时采用的一种自动加载版本文件,包括系统软件、配置文件、补丁文件的功能。
Leaf节点建议采用M-LAG+VLAN双活网关或M-LAG+VRRP,为服务器提供冗余备份的网关。
网关部署方案 |
适用场景 |
VLAN双活网关(推荐) |
· 双活网关,主设备和从设备都可以回应ARP报文和作为网关转发报文 · 在容器接入场景(例如K8S),服务器需要和M-ALG设备建立路由邻居时,有两种配置方式: ¡ 使用静态路由 ¡ 使用动态路由接入功能,在作为网关的VLAN接口上配置M-LAG虚拟IP地址(通过port m-lag virtual-ip/port m-lag virtual-ip命令配置),使用虚拟IP地址与服务器建立路由邻居 |
VRRP网关 |
· VRRP主、备都可以作为网关转发报文,但只有VRRP主设备可以回应ARP报文 · 可以支持服务器动态路由接入 |
如图2-2所示,VLAN双活网关是指组成M-LAG系统的两台M-LAG设备均作为用户侧的网关,回应用户侧的ARP请求并转发用户侧的报文,以提高网关的可靠性。
图2-2 M-LAG VLAN双活网关部署方案
M-LAG VLAN双活网关的部署方案为:在同一M-LAG系统的两台M-LAG设备上各创建一个相同编号的VLAN接口(例如Vlan-interface100),并为其配置相同的IPv4地址、IPv6地址和MAC地址。该接口的IPv4地址和IPv6地址作为网关地址,以便IPv4和IPv6用户均可通过该网关访问外部网络。
M-LAG VLAN双活网关的工作机制为:
· M-LAG设备采取本地优先转发原则,设备收到报文后直接转发,无需绕行peer link到对端M-LAG设备转发。例如,Leaf1收到Server侧发送的ARP请求,Leaf1直接向Server侧发送ARP应答报文,无需转发到Leaf 2处理。
· 当一条接入链路发生故障时,流量可以快速切换到另一条链路,保证可靠性。例如,Leaf1和Spine之间链路故障,则流量处理方式为:
¡ 访问Server的下行流量快速切换Leaf 2处理,不再转发到Leaf 1。
¡ 访问Spine的上行流量,转发到Leaf 2时,Leaf 2处理完成后直接向Spine侧转发;转发到Leaf 1时,流量将通过peer link绕行到Leaf 2处理,然后向Spine侧转发。
· 两条接入链路可以同时处理用户流量,以提高带宽利用率,使流量在两条接入链路上负载分担。
在M-LAG VLAN双活网关场景中,M-LAG成员设备作为网关进行三层转发。由于作为网关的VLAN接口具有相同的IP地址和MAC地址,M-LAG成员设备无法用该IP地址与用户侧设备之间建立路由邻居关系。当VLAN双活网关需要与服务器建立路由邻居关系时,可以在作为网关的VLAN接口上配置M-LAG虚拟IP地址(通过port m-lag virtual-ip/port m-lag ipv6 virtual-ip命令配置),并配置路由协议,使用虚拟IP地址与服务器建立邻居关系。具体部署方式请参见图2-3和表2-2。
图2-3 M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居
表2-2 M-LAG VLAN双活网关场景网关接口配置M-LAG虚拟IP地址建立路由邻居
部署方案 |
流量模型 |
· 在同一M-LAG系统的两台M-LAG设备上各创建一个相同编号的VLAN接口(例如VLAN 100)作为IPv4和IPv6双活网关,在两台M-LAG设备上为该VLAN接口配置相同的IP地址和MAC地址作为网关地址。Server通过M-LAG接口双归接入到M-LAG设备,且IPv4和IPv6流量均可通过网关地址访问外部网络 · 在同一M-LAG系统的两台M-LAG设备上,作为网关的VLAN接口下分别配置同一网段不同的M-LAG虚拟IP地址,使用该虚拟IP地址与服务器建立三层连接,通过BGP或OSPF实现三层互通 · 在同一M-LAG系统的两台M-LAG设备上各自再创建一个相同编号的VLAN接口(例如VLAN 101),将peer link聚合接口加入该VLAN。两台M-LAG设备上分别为该VLAN接口配置同一网段的不同IP地址,以实现两台M-LAG设备的三层互通。如果Leaf1或Leaf2与上行设备Device A的链路故障,报文可以通过路由绕行到对端M-LAG设备处理 · M-LAG设备与上行Spine设备间通过三层接口部署等价路由进行负载分担 |
· 服务器发出的二层流量,查找MAC地址表找到出接口为聚合接口,将流量负载分担到M-LAG设备上。M-LAG设备根据本地优先转发原则,根据MAC地址表进行二层转发 · 服务器发出的三层流量,根据配置的动态路由生成的路由表找到出接口为VLAN 100,通过VLAN 100加入的聚合接口转发,将流量负载分担到M-LAG设备上,M-LAG设备根据FIB表对流量进行三层转发 · 外部网络访问Server的流量根据ECMP路由,将流量负载分担转到M-LAG设备。M-LAG设备根据本地路由信息将流量转发到Server |
M-LAG+VRRP的三层转发部署方案请参见图2-4和表2-3。
图2-4 M-LAG+VRRP的三层转发方案
表2-3 M-LAG+VRRP的三层转发方案说明
部署方案 |
流量模型 |
· M-LAG设备部署VRRP,VRRP虚拟IP地址作为Server的网关地址,Server通过M-LAG接口双归接入到VRRP网关 · M-LAG口所属VLAN创建VLAN接口,两台M-LAG设备的VLAN接口分别配置同网段内不同的IP地址作主IP地址,再配置另一网段内同网段不同的IP地址作从IP地址 · 使用VLAN接口的主IP或从IP地址可以与Server建立三层连接,通过BGP或OSPF实现三层互通 · 两台M-LAG设备通过peer link链路建立的三层接口建立路由邻居作为三层链路备份,如果Leaf1或Leaf2与上行设备Spine的链路故障,报文可以通过路由绕行到对端M-LAG设备处理 · M-LAG设备与上行设备Spine间通过三层接口部署等价路由进行负载分担 |
· 服务器发往其它网段的报文,通过M-LAG接口负载分担到两台M-LAG设备,两台M-LAG设备均可以作为VRRP虚拟路由器对报文进行转发 · 服务器发出的三层流量,根据服务器与M-LAG设备VLAN接口从IP建立的路由信息转发 · 外部网络访问Server的流量根据ECMP路由,将流量负载分担转发到M-LAG设备上。M-LAG设备根据本地路由信息将流量转发到Server |
根据网络规模的不同,Underlay路由协议建议选择OSPF或EBGP
表2-4 Underlay路由协议选择对比
项目 |
优点 |
缺点 |
适用场景 |
OSPF |
l OSPF路由协议部署简单 l OSPF路由收敛快速 l Underlay中的OSPF路由协议报文与Overlay中的BGP协议报文不同队列,VRF和路由表项都相互隔离,实现故障的隔离 |
l OSPF路由域规模受限 l 故障域较大 |
l 中小型网络单Area,大型网络多Area; l 建议邻居数<200 |
EBGP |
l 每个分区路由域独立,故障域可控 l 路由控制灵活,可灵活扩展规模 l 适合大规模组网 |
配置复杂 |
l 中大型网络 l 建议邻居数<500 |
· 规模
¡ 适应范围广,支持各种规模的网络。
¡ 布署简单,小规模网络建议采用OSPF布署。
· 区域划分
¡ 随着网络规模日益扩大,当一个大型网络中的路由器都运行OSPF协议时,LSDB会占用大量的存储空间,并使得运行SPF(Shortest Path First,最短路径优先)算法的复杂度增加,导致CPU负担加重。OSPF协议通过将自治系统划分成不同的区域来解决上述问题。区域是从逻辑上将路由器划分为不同的组,每个组用区域号来标识。
¡ 通过划分区域可以减小LSDB,从而降低内存消耗和CPU负担;区域间传送路由信息的减少降低了网络带宽的占用。
¡ 对于单Fabric网络,将内部设备部署在同一OSPF区域即可。
¡ 对于多Fabric网络,每个Fabric一个区域,不同的Fabric布署不同的区域,中间通过骨干区域互通。
· 等价路由:支持到同一目的地址的多条等价路由。
· 快速收敛:在网络的拓扑结构发生变化后立即发送更新报文,使这一变化在自治系统中同步。
由于BGP的以下特性,BGP在大规模网络部署中更具优势:
· 路由更新时只发送更新的路由,大大减少了BGP传播路由所占用的带宽。
· 通过路由聚合、路由衰减、团体、路由反射器等方法,减小路由数目。
当Leaf节点规模大于200台时,建议采用EBGP部署Underlay网络路由。推荐部署方案如4. BGP推荐部署方案一和5. BGP推荐部署方案二。
BGP推荐部署方案一特点:
· 每组Leaf一个AS号,无需关闭BGP路由防环机制。
· 每组Leaf之间通过peer link建立IBGP对等体,每组Leaf分别与Spine1、Spine2建立EBGP对等体。
· 上联链路故障后可通过peer link逃生;逃生方案目前支持M-LAG设备之间通过peer link建立路由邻居方式逃生,后续计划增加支持Monitor-link逃生。
图2-6 单Fabric内部EBGP路由规划推荐方案2
BGP推荐部署方案二特点:
· 所有Leaf和Border共用一个AS号。
· 每组Leaf/Border分别与Spine1、Spine2建立EBGP对等体;组内两台设备建立IBGP对等体。
· 由于所有Leaf、Border共用一个AS号,Leaf和Border节点需关闭BGP路由防环机制或者在Spine节点配置路由策略替换AS-PATH(推荐)。
· Spine配置路由策略替换AS-PATH关键配置:
¡ route-policy AS_Replace permit node node-number
¡ apply as-path 65504 replace
¡ peer group-name route-policy AS_Replace import
· 逃生方案目前支持M-LAG设备之间通过peer link建立路由邻居方式逃生,后续计划增加支持Monitor-link逃生。
本节介绍单Fabric内服务器容量设计。
Spine的下行口数量即Leaf数量。Leaf数量*Leaf下行口数量/2即服务器数量。
· M-LAG接入
接入交换机采用M-LAG时,组成M-LAG的一组Leaf设备使用2个高速端口做peer-link,使用4个端口上行,每2个端口对接1台Spine设备。
表2-5 Leaf采用10G接口连接服务器,40G接口上行
Spine型号 |
Spine数量 |
Spine收敛比(上行/下行) |
接入交换机数量 |
接入服务器数量 |
S12516X-AF |
2 |
以36*40G端口单板评估: 收敛比(1:3) 即144个端口上行,432个端口下行 |
432/2=216 收敛比(1:3) 即160:480(每个交换机4个40G端口上行,48个10G端口下行) |
216*48/2=5184 |
以36*40G端口单板评估: 收敛比(1:1) 即288个端口上行,288个端口下行 |
288/2=144 收敛比(1:3) 即160:480(每个交换机4个40G端口上行,48个10G端口下行) |
144*48/2=3456 |
表2-6 Leaf采用25G接口连接服务器,100G接口上行
Spine型号 |
Spine数量 |
Spine收敛比(下行/上行) |
接入交换机数量 |
接入服务器数量 |
S12516X-AF |
2 |
以36*100G端口单板评估: 收敛比(1:3) 即144个端口上行,432个端口下行 |
432/2=216 收敛比(1:3) 即400:1200(每个交换机4个100G端口上行,48个25G端口下行) |
216*48/2=5184 |
以36*100G端口单板评估: 收敛比(1:1) 即288个端口上行,288个端口下行 |
288/2=144 收敛比(1:3) 即400:1200(每个交换机4个100G端口上行,48个25G端口下行) |
144*48/2=3456
|
· S-MLAG接入
接入交换机采用S-MLAG时,每台接入交换机使用6个或8个端口上行,每1个端口对接1台Spine设备。
表2-7 Leaf采用10G接口连接服务器,100G接口上行
Spine型号 |
Spine数量 |
Spine收敛比(上行/下行) |
接入交换机数量 |
接入服务器数量 |
S9820-8C |
6 |
收敛比(1:3) 即32个端口上行,96个端口下行 |
96 收敛比(5:4) 即600:480(每个交换机6个100G端口上行,48个10G端口下行) |
96*48/2=2304 |
收敛比(1:1) 即64个端口上行,64个端口下行 |
64 收敛比(5:4) 即600:480(每个交换机6个100G端口上行,48个10G端口下行) |
64*48/2=1536 |
表2-8 Leaf采用25G接口连接服务器,100G接口上行
Spine型号 |
Spine数量 |
Spine收敛比(上行/下行) |
接入交换机数量 |
接入服务器数量 |
S9820-8C |
8 |
收敛比(1:3) 即32个端口上行,96个端口下行 |
96 收敛比(2:3) 即800:1200(每个交换机8个100G端口上行,48个25G端口下行) |
96*48/2=2304 |
收敛比(1:1) 即64个端口上行,64个端口下行 |
64 收敛比(2:3) 即800:1200(每个交换机8个100G端口上行,48个25G端口下行) |
64*48/2=1536 |
通过增加Fabric可以进一步扩展数据中心网络。Fabric之间通过ED互联。
图2-7 单fabric网络示意
图2-8 多个Fabric通过ED互连
设备角色 |
应用场景 |
设备型号 |
Border/ED |
中大型规模网络 |
· S12500X-AF H系列单板 · S12500G-AF全系列单板 |
小型规模网络 |
同Leaf角色 |
|
Spine |
3000台以上服务器 |
S12500X-AF H系列单板 |
S12500G-AF全系列单板 |
||
1000~3000台服务器 |
S9820-8C |
|
1000台以下服务器 |
S68xx |
|
Leaf |
10GE接入 |
· S6800 · S6860 · S6805 · S6850-2C/S9850-4C配置10GE接口卡 · S6812/S6813 · S6880-48X8C |
25GE接入 |
· S6825 · S6850-56HF · S6850-2C/S9820-4C配置25GE接口卡 · S6880-48Y8C |
|
40GE接入 |
· S6800 · S6850-2C/S9850-4C配置40GE接口卡 |
|
100GE接入 |
· S9850-32H · S6850-2C/S9850-4C配置100GE接口卡 · S9820-8C · S9820-64H |
每两台接入设备通过M-LAG形成一组Leaf,为服务器提供冗余备份的接入。
图2 数据中心典型组网
推荐使用如下两种服务器接入方案:
· 服务器以主备方式接入到M-LAG形成的一组Leaf上,物理口作为普通trunk接入口,不加入M-LAG组。主链路处于工作状态,备链路不收发报文,主链路故障后,服务器主备链路倒换,刷新ARP、ND等表项,触发远端路由刷新。
· 服务器以负载分担的方式接入到M-LAG形成的一组Leaf上,聚合口为trunk接入口,加入M-LAG组,服务器两个链路同时工作。
图3-1 服务器接入方式
边界设备与外部网关设备有如下几种组网连接方式:
· M-LAG组网
· 交叉型组网
· 口字型组网
如图3-2所示,两台Border组成一个M-LAG系统,两台外部网关设备也组成M-LAG,物理组网交叉连线。Border和外部网关设备之间使用4条物理链路跨设备聚合成一条逻辑链路。由于一个外部网络只给外部网关指定了一个网关IP,而M-LAG组网聚合成一条链路仅需一个互连IP,与云网模型非常契合。有条件的情况下优先推荐M-LAG组网。
图3-2 Border与外部网关设备M-LAG组网
M-LAG组网不需要部署border间的逃生路径,Border和外部网关设备之间的4条物理链路只要有一条正常,流量就不会中断。
· Border1与外部网关设备互连链路中有一条链路故障时,LACP协议自动排除故障链路,流量切换到正常链路,路由层面不感知。
· Border1与外部网关设备互连链路的两条链路均故障,M-LAG保持聚合口UP,流量经peer link链路逃生,转到border2,再从border2上的正常聚合口发往外部网关,路由层面不感知。
· Border1设备故障,Underlay路由协议感知,Spine上撤销VTEP IP下一跳为Border1的路由,原等价分担到border1的流量切换到border2。
组网要求出口网关设备也支持M-LAG。M-LAG仅支持两台设备组网。
IP地址、VLAN资源消耗较少,云网模型符合度高。
如图3-3所示,两台Border设备组成多活设备组(也可以支持更多台设备),Border设备使用4个L3接口同外部网关设备对接,物理组网交叉连线。Border与外部网关间可以通过静态路由、OSPF互通。
图3-3 Border与外部网关设备交叉组网
在交叉组网下可以不部署Border1与Border2间的逃生链路。只有当一台Border与外部网关的所有链路故障时,才会用到border间的逃生链路。
· Border1与外部网关设备中有一条链路故障时,通过静态路由失效或动态路由撤销,等价分担到故障链路上的流量切换另一条正常链路。
· Border1与外部网关设备互连的两条链路均故障时,border间需要有逃生链路方能正常工作。通过静态路由失效或动态路由撤销,border1流量经逃生链路,转发到border2,再从border2转发往外部网关。
· Border1设备故障,Underlay路由协议感知,Spine上撤销VTEP IP下一跳为Border1的路由,原等价分担到Border1的流量切换到Border2。北向南通过外部网关上静态路由失效或动态路由撤销实现流量切换到Border2。
Border可支持两台以上设备多活。IP地址、VLAN资源消耗较多。
如图3-4所示,Border设备使用2个L3接口与出口网关设备对接,两台Border设备之间需要部署逃生链路,同时保证逃生路径的路由优先级低于正常转发路由。一般通过在两台外部网关设备及两台Border间运行动态协议来自动生成正常转发路由与逃生路由。
图3-4 Border与外部网关设备口字型组网
在口字型组网下必须部署Border1与Border2间的逃生链路。当一台Border与外部网关设备的互连链路故障时,必须依赖逃生链路保障业务正常。
· Border1与外部网关设备互连链路故障时,通过静态路由失效或动态路由撤销,Border1的流量经逃生链路,转发到Border2,再从Border2转发往外部网关。
· Border1设备故障,Underlay路由协议感知,Spine上撤销VTEP IP下一跳为Border1的路由,原等价分担到Border1的流量切换到Border2。北向南通过外部网关上静态路由失效或动态路由撤销实现流量切换到Border2。
口字型组网减少了Border与外部网关间的链路,适合Border与外部网关距离比较远或连接不便的场景。
单Fabric网络主要需要规划Spine、Leaf互连接口地址和Router ID地址。
Spine、leaf互联接口地址建议借用LoopBack接口地址。在三层以太网接口配置ip address unnumbered interface LoopBack0借用LoopBack接口地址。
对于路由协议来说,两台M-LAG设备是独立设备,需要配置不同的Router ID。请手工配置Router ID,否则设备会自动选择Router ID,可能会出现Router ID冲突的情况。在EVPN+M-LAG环境,建议配置方式:
· 同一M-LAG系统的两台设备采用LoopBack0接口地址作为M-LAG系统的本地VTEP地址和Router ID,且不能配置相同地址;
· 同一M-LAG系统的两台设备采用LoopBack1接口地址作为虚拟VTEP地址(通过evpn m-lag group命令配置),需要配置相同的地址。
数据中心Underlay网络即承载Overlay业务的物理网络,包含Spine、Leaf等交换机设备。
Underlay网络可通过如下方式部署:
· 手工配置
· 自动化部署
自动化部署有两种方式:
· 控制器自动下发配置:此方式通过在控制器上配置相关模板,无需进行Underlay设备的预配置,只需空配置启动就可以自动被控制器纳管。
· 自动配置(无控制器的场景建议使用):
a. 网络管理员将设备的版本文件(包括启动文件、补丁包等)和配置文件保存到HTTP/TFTP/FTP等任意一种文件服务器上,版本文件和配置文件可以通过设备SN码标识,以便与设备匹配;
b. 设备启动时自动通过DHCP协议获取到TFTP服务器地址,然后从TFTP服务器获取到自动配置的执行脚本;
c. 设备通过执行自动配置的脚本获取到设备信息(如SN码),根据设备信息匹配到设备的版本文件和配置文件;
d. 设备从文件服务器下载设备的版本文件和配置文件,并自动执行版本加载、下发配置等操作。
自动配置的Python脚本在执行的过程中会有许多打印信息,可以通过这些信息对Python脚本在执行的过程中进行了哪些操作进行监控,以便在需要进行故障定位和处理时更好的与开发人员沟通。
通过自动配置可以简化网络配置,大大降低网络管理员的工作量,便于实现对设备的集中管理。
在数据中心组网中,通常使用一台独立的交换机连接各设备的管理网络,称之为管理交换机。
单Fabric组网的管理网络可以使用二层组网模式,也可以使用三层组网模式。多Fabric组网的管理网络必须使用三层组网模式。在三层组网模式中,管理交换机上需要为不同Fabric划分不同VLAN,并需要手动配置网关和DHCP中继命令。为方便后续Fabric扩容,在单Fabric组网中也推荐使用三层组网模式。
多Fabric组网中部署三层组网模式的管理网典型组网图如图4-2所示。