选择区域语言: EN CN HK

H3C SDN Overlay技术白皮书

 

Copyright © 2016 杭州华三通信技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

Adobe Systems

 


 

1 概述·· 1

1.1 产生背景·· 1

1.2 技术优点·· 1

2 Overlay技术介绍·· 2

2.1 Overlay的概念介绍·· 2

2.2 Overlay的解决方法·· 3

3 Overlay技术实·· 3

3.1 Overlay网络基础架构·· 3

3.2 Overlay网络部署需求·· 5

3.2.1 VXLAN 网络和传统网络互通的需求·· 5

3.2.2 VXLAN 网络安全需求·· 5

3.2.3 Overlay网络虚机位置无关性·· 6

3.2.4 OverlaySDN的结合·· 6

4 H3C SDN Overlay模型设计·· 6

4.1 H3C SDN Overlay模型设计·· 6

4.2 SDN控制器模型介绍·· 8

4.3 H3C SDN Overlay组件介绍·· 9

4.4 SDN Overlay网络与云对接·· 10

4.4.1 SDN Overlayopenstack对接·· 10

4.4.2 SDN Overlay与基于openstack的增强云平台对接·· 11

4.4.3 SDN Overlay与非openstack云平台对接·· 12

4.5 服务链在Overlay网络安全中的应用·· 12

4.5.1 什么是服务链·· 12

4.5.2 Overlay网络服务链节点描述·· 13

4.5.3 服务链在overlay网络安全中的应用·· 13

5 SDN Overlay组网方案设计·· 14

5.1 SDN Overlay组网模型:·· 14

5.1.1 网络Overlay· 15

5.1.2 主机Overlay· 15

5.1.3 混合Overlay· 15

5.2 H3C SDN Overlay典型组网·· 15

5.2.1 网络Overlay· 15

5.2.2 主机Overlay· 18

5.2.3 混合Overlay· 21

5.2.4 Overlay组网总结·· 21

6 SDN Overlay转发流程描述·· 22

6.1 SDN Overlay流表建立和发布·· 22

6.1.1 流表建立流程对ARP的处理·· 22

6.1.2 Overlay网络到非Overlay网络·· 23

6.1.3 Overlay网络到Overlay网络·· 23

6.2 Overlay网络转发流程·· 24

6.2.1 Overlay网络到非Overlay网络·· 25

6.2.2 Overlay网络到Overlay网络·· 26

6.3 Overlay网络虚机迁移·· 27

6.4 SDN Overlay升级部署方案·· 28

6.4.1 SDN Overlay独立分区部署方案·· 28

6.4.2 IP GW旁挂部署方案·· 28

6.4.3 核心升级,SDN Overlay独立分区·· 29

6.4.4 Overlay网关弹性扩展升级部署·· 29

6.4.5 多数据中心同一控制器集群部署·· 30

7 SDN Overlay方案优势总结·· 31


概述

1.1  产生背景

随着企业业务的快速扩展,IT作为基础设施,其快速部署和高利用率成为主要需求。云计算可以为之提供可用的、便捷的、按需的资源提供,成为当前企业IT建设的常规形态,而在云计算中大量采用和部署的虚拟化几乎成为一个基本的技术模式。部署虚拟机需要在网络中无限制地迁移到目的物理位置,虚机增长的快速性以及虚机迁移成为一个常态性业务。传统的网络已经不能很好满足企业的这种需求,面临着如下挑战:

·              虚拟机迁移范围受到网络架构限制

虚拟机迁移的网络属性要求,当其从一个物理机上迁移到另一个物理机上,虚拟机需要不间断业务,因而需要其IP地址、MAC地址等参数维持不变,如此则要求业务网络是一个二层网络,且要求网络本身具备多路径多链路的冗余和可靠性。传统的网络生成树(STPSpaning Tree Protocol)技术不仅部署繁琐,且协议复杂,网络规模不宜过大,限制了虚拟化的网络扩展性。基于各厂家私有的IRF/vPC等设备级的(网络N:1)虚拟化技术,虽然可以简化拓扑、具备高可靠性,但是对于网络有强制的拓扑形状,在网络的规模和灵活性上有所欠缺,只适合小规模网络构建,且一般适用于数据中心内部网络。

·              虚拟机规模受网络规格限制

在大二层网络环境下,数据流均需要通过明确的网络寻址以保证准确到达目的地,因此网络设备的二层地址表项大小(即MAC地址表),成为决定了云计算环境下虚拟机的规模上限,并且因为表项并非百分之百的有效性,使得可用的虚机数量进一步降低。特别是对于低成本的接入设备而言,因其表项一般规格较小,限制了整个云计算数据中心的虚拟机数量,但如果其地址表项设计为与核心或网关设备在同一档次,则会提升网络建设成本。虽然核心或网关设备的MACARP规格会随着虚拟机增长也面临挑战,但对于此层次设备能力而言,大规格是不可避免的业务支撑要求。减小接入设备规格压力的做法可以是分离网关能力,如采用多个网关来分担虚机的终结和承载,但如此也会带来成本的巨幅上升。

·              网络隔离/分离能力限制

当前的主流网络隔离技术为VLAN(或VPN),在大规模虚拟化环境部署会有两大限制:一是VLAN数量在标准定义中只有12个比特单位,即可用的数量为4K,这样的数量级对于公有云或大型虚拟化云计算应用而言微不足道,其网络隔离与分离要求轻而易举会突破4K;二是VLAN技术当前为静态配置型技术,这样使得整个数据中心的网络几乎为所有VLAN被允许通过(核心设备更是如此),导致任何一个VLAN的未知目的广播数据会在整网泛滥,无节制消耗网络交换能力与带宽。

上述的三大挑战,完全依赖于物理网络设备本身的技术改良,目前看来并不能完全解决大规模云计算环境下的问题,一定程度上还需要更大范围的技术革新来消除这些限制,以满足云计算虚拟化的网络能力需求。在此驱动力基础上,逐步演化出Overlay网络技术。

1.2  技术优点

Overlay是一种叠加虚拟化技术,主要具有以下优点:

·              基于IP网络构建Fabric。无特殊拓扑限制,IP可达即可;承载网络和业务网络分离;对现有网络改动较小,保护用户现有投资。

·              16M多租户共享,极大扩展了隔离数量。

·              网络简化、安全。虚拟网络支持L2L3等,无需运行LAN协议,骨干网络无需大量VLAN Trunk

·              支持多样化的组网部署方式,支持跨域互访。

·              支持虚拟机灵活迁移,安全策略动态跟随。

·              转发优化和表项容量增大。消除了MAC表项学习泛滥,ARP等泛洪流量可达范围可控,且东西向流量无需经过网关。

Overlay技术介绍

2.1  Overlay的概念介绍

Overlay在网络技术领域,是一种网络架构上叠加的虚拟化技术模式,其大体框架是对基础网络不进行大规模修改的条件下,实现应用在网络上的承载,并能与其它网络业务分离,并且以基于IP的基础网络技术为主(如图1所示)。

·              Overlay网络是指建立在已有网络上的虚拟网,逻辑节点和逻辑链路构成了Overlay网络。

·              Overlay网络是具有独立的控制和转发平面,对于连接在overlay边缘设备之外的终端系统来说,物理网络是透明的。

·              Overlay网络是物理网络向云和虚拟化的深度延伸,使云资源池化能力可以摆脱物理网络的重重限制,是实现云网融合的关键。

                                                                                                             图1 Overlay网络概念图

2.2  Overlay的解决方法

针对前文提到的三大挑战,Overlay给出了完美的解决方法。

·              针对虚机迁移范围受到网络架构限制的解决方式

Overlay把二层报文封装在IP报文之上,因此,只要网络支持IP路由可达就可以部署Overlay网络,而IP路由网络本身已经非常成熟,且在网络结构上没有特殊要求。而且路由网络本身具备良好的扩展能力,很强的故障自愈能力和负载均衡能力。采用Overlay技术后,企业不用改变现有网络架构即可用于支撑新的云计算业务,极方便用户部署。

·              针对虚机规模受网络规格限制的解决方式

虚拟机数据封装在IP数据包中后,对网络只表现为封装后的网络参数,即隧道端点的地址,因此,对于承载网络(特别是接入交换机),MAC地址规格需求极大降低,最低规格也就是几十个(每个端口一台物理服务器的隧道端点MAC)。当然,对于核心/网关处的设备表项(MAC/ARP)要求依然极高,当前的解决方案仍然是采用分散方式,通过多个核心/网关设备来分散表项的处理压力。

·              针对网络隔离/分离能力限制的解决方式

针对VLAN只能支持数量4K以内的限制,在Overlay技术中扩展了隔离标识的位数,可以支持高达16M的用户,极大扩展了隔离数量。

Overlay技术实现

3.1  Overlay网络基础架构

VXLANVirtual eXtensible LAN,可扩展虚拟局域网络)是基于IP网络、采用“MAC in UDP”封装形式的二层VPN技术,具体封装的报文格式如图2所示。VXLAN可以基于已有的服务提供商或企业IP网络,为分散的物理站点提供二层互联功能,主要应用于数据中心网络。

                                                                                                                    图2 VXLAN报文

VXLAN技术已经成为目前Overlay技术事实上的标准,得到了非常广泛的应用。

VXLAN技术为基础的Overlay网络架构模型如图3所示:

                                                                                                         图3 Overlay网络的基础架构

·              VMVirtual Machine,虚拟机)

在一台服务器上可以创建多台虚拟机,不同的虚拟机可以属于不同的VXLAN。属于相同VXLAN的虚拟机处于同一个逻辑二层网络,彼此之间二层互通。

两个VXLAN 可以具有相同的MAC地址,但一个段不能有一个重复的MAC地址。

·              VTEPVXLAN Tunnel End PointVXLAN隧道端点)

VXLAN的边缘设备,进行VXLAN业务处理:识别以太网数据帧所属的VXLAN、基于VXLAN对数据帧进行二层转发、封装/解封装VXLAN报文等。

VXLAN通过在物理网络的边缘设置智能实体VTEP,实现了虚拟网络和物理网络的隔离。VTEP之间建立隧道,在物理网络上传输虚拟网络的数据帧,物理网络不感知虚拟网络。VTEP将从虚拟机发出/接受的帧封装/解封装,而虚拟机并不区分VNIVXLAN隧道。

·              VNI(VXLAN Network IdentifierVXLAN网络标识符)

VXLAN采用24比特标识二层网络分段,使用VNI来标识二层网络分段,每个VNI标识一个VXLAN,类似于VLAN ID作用。VNI占用24比特,这就提供了近16M可以使用的VXLANsVNI将内部的帧封装(帧起源在虚拟机)。使用VNI封装有助于VXLAN建立隧道,该隧道在第3层网络之上覆盖率第二层网络。

·              VXLAN隧道

在两个VTEP之间完成VXLAN封装报文传输的逻辑隧道。业务入隧道进行VXLAN头、UDP头、IP头封装后,通过三层转发透明地将封装后的报文转发给远端VTEP,远端VTEP对其进行出隧道解封装处理。

·              VSIVirtual Switching Instance,虚拟交换实例)

VTEP上为一个VXLAN提供二层交换服务的虚拟交换实例。

3.2  Overlay网络部署需求

3.2.1  VXLAN 网络和传统网络互通的需求

为了实现VLANVXLAN之间互通,VXLAN定义了VXLAN网关。VXLAN上同时存在VXLAN端口和普通端口两种类型端口,它可以把VXLAN网络和外部网络进行桥接和完成VXLAN IDVLAN ID之间的映射和路由,和VLAN一样,VXLAN网络之间的通信也需要三层设备的支持,即VXLAN路由的支持。同样VXLAN网关可由硬件和软件来实现。

当收到从VXLAN网络到普通网络的数据时,VXLAN网关去掉外层包头,根据内层的原始帧头转发到普通端口上;当有数据从普通网络进入到VXLAN网络时,VXLAN网关负责打上外层包头,并根据原始VLAN ID对应到一个VNI,同时去掉内层包头的VLAN ID信息。相应的如果VXLAN网关发现一个VXLAN包的内层帧头上还带有原始的二层VLAN ID,会直接将这个包丢弃。

如图4所示。VXLAN网关最简单的实现应该是一个Bridge设备,仅仅完成VXLANVLAN的转换,包含VXLANVLAN11N1转换,复杂的实现可以包含VXLAN Mapping功能实现跨VXLAN转发,实体形态可以是vSwitch、物理交换机。

如图4所示。VXLAN路由器(也称为VXLAN IP GW)最简单的实现可以是一个Switch设备,支持类似VLAN Mapping的功能,实现VXLAN ID之间的Mapping,复杂的实现可以是一个Router设备,支持跨VXLAN转发,实体形态可以是NFV形态的路由器、物理交换机、物理路由器。

                                                                                              图4 VXLAN网关和VXLAN路由简单实现

3.2.2  VXLAN 网络安全需求

同传统网络一样,VXLAN网络同样需要进行安全防护。

VXLAN网络的安全资源部署需要考虑两个需求:

·              VXLANVLAN之间互通的安全控制

传统网络和Overlay网络中存在流量互通,需要对进出互通的网络流量进行安全控制,防止网络间的安全问题。针对这种情况,可以在网络互通的位置部署VXLAN防火墙等安全资源,VXLAN防火墙可以兼具VXLAN网关和VXLAN路由器的功能,该功能可以称之为南北向流量安全。

·              VXLAN ID对应的不同VXLAN域之间互通的安全控制

VM之间的横向流量安全是在虚拟化环境下产生的特有问题,在这种情况下,同一个服务器的不同VM之间的流量可能直接在服务器内部实现交换,导致外部安全资源失效。针对这种情况,可以考虑使用重定向的引流方法进行防护,又或者直接基于虚拟机进行防护,这个功能可以称之为南北向流量安全。

网络部署中的安全资源可以是硬件安全资源,也可以是软件安全资源,还可以是虚拟化的安全资源。

3.2.3  Overlay网络虚机位置无关性

通过使用MAC-in-UDP封装技术,VXLAN为虚拟机提供了位置无关的二层抽象,Underlay网络和Overlay网络解耦合。终端能看到的只是虚拟的二层连接关系,完全意识不到物理网络限制。

更重要的是,这种技术支持跨传统网络边界的虚拟化,由此支持虚拟机可以自由迁移,甚至可以跨越不同地理位置数据中心进行迁移。如此以来,可以支持虚拟机随时随地接入,不受实际所在物理位置的限制。

所以VXLAN的位置无关性,不仅使得业务可在任意位置灵活部署,缓解了服务器虚拟化后相关的网络扩展问题;而且使得虚拟机可以随时随地接入、迁移,是网络资源池化的最佳解决方式,可以有力地支持云业务、大数据、虚拟化的迅猛发展。

3.2.4  OverlaySDN的结合

Overlay技术与SDN可以说天生就是适合互相结合的技术组合。前面谈到的Overlay网络虚机物理位置无关特性就需要有一种强有力的集中控制技术进行虚机的管理和控制。而SDN技术恰好可以完美的做到这一点。接下来就让我们继续分析Overlay技术和SDN技术相结合带来的应用场景。

H3C SDN Overlay模型设计

4.1  H3C SDN Overlay模型设计

在数据中心虚拟化多租户环境中部署和配置网络设施是一项复杂的工作,不同租户的网络需求存在差异,且网络租户是虚拟化存在,和物理计算资源位置无固定对应关系。通过传统手段部署物理网络设备为虚拟租户提供网络服务,一方面可能限制租户虚拟计算资源的灵活部署,另一方面需要网络管理员执行远超传统网络复杂度的网络规划和繁重的网络管理操作。在这种情况下,VPCVirtual Private Cloud, 虚拟私有云)技术就应运而生了。VPC对于网络层面,就是对物理网络进行逻辑抽象,构架弹性可扩展的多租户虚拟私有网络,对于私有云、公有云和混合云同样适用。

H3CSDN控制器称为VCF控制器。H3C通过VCF控制器控制Overlay网络从而将虚拟网络承载在数据中心传统物理网络之上,并向用户提供虚拟网络的按需分配,允许用户像定义传统L2/L3网络那样定义自己的虚拟网络,一旦虚拟网络完成定义,VCF控制器会将此逻辑虚拟网络通过Overlay技术映射到物理网络并自动分配网络资源。VCF的虚拟网络抽象不但隐藏了底层物理网络部署的复杂性,而且能够更好的管理网络资源,最大程度减少了网络部署耗时和配置错误。

VCF将虚拟网络元素组织为的“资源池”,VCF Controller控制了“网络资源池”的按需分配,进而实现虚拟网络和物理网络的Overlay映射。

                                                                                                          图5 VPC多租户资源池场景

VCFC虚拟网络元素的抽象方式与OpenStack网络模型兼容,如下图所示:

                                                                                                          图6 VPC多租户资源池场景

虚拟网络的各个要素如下表:

元素名称

描述

Tenant

租户。

Network

一个虚拟的二层隔离网络。可以看作是一个虚拟的或逻辑的交换机。

Subnet

一个IPv4IPv6地址块,对应于三层子网。

Port

一个虚拟的或逻辑的交换机端口。

vRouter

代表逻辑三层网关/网络,分散在各个虚拟设备上;

vFW

vLB

vIPS

网络服务功能,为每个租户提供独立的FWLBIPS服务;

Security Group

vSwitch上的安全组功能。

4.2  SDN控制器模型介绍

从控制器是否参与转发设备的的转发控制来看,当前主要有两种控制器类型:

n  控制器弱控制模式

弱控制模式下,控制平面基于网络设备MP-BGP EVPN模式,控制器不在转发平面,仅负责配置下发,实现自动部署。主要解决网络虚拟化,提供适应应用的虚拟网络。

弱控制模式的优点是转发控制面下移,减轻和减少对控制器的依赖。

n  控制器强控制模式

在强控制模式下,控制器负责整个网络的集中控制,体现SDN集中管理的优势。

基于openflow的强控制使得网络具备更多的灵活性和可编程性。除了能够给用户提供适合应用需要的网络,还可以集成FW等提供安全方案;可以支持混合Overlay模型,通过控制器同步主机和拓扑信息, 将各种异构的转发模型同一处理;可以提供基于openflow的服务链功能对安全服务进行编排,可以提供更为灵活的网络诊断手段,如虚机仿真和雷达探测等。

用户可能会担心强控制模式下控制器全部故障对网络转发功能的影响,这个影响因素可以通过下述两点来降低和消除:

1、 通过控制器集群增加控制器可靠性,避免单点故障

2、 逃生机制:设备与所有控制器失联后,切换为自转模式,业务不受影响。

控制器自身提供可视化的网络业务发放和编排的界面能力,提供面向应用的网络业务编排,可以额外支持安全、服务链等灵活、可编程的功能,并且可靠性又可以通过上述方式加强。

4.3  H3C SDN Overlay组件介绍

                                                                                                      图7 H3C SDN Overlay组件介绍

如上图所示,H3C SDN Overlay主要包含如下组件:

n  云管理系统

可选,负责计算,存储管理的云平台系统,目前主要包括OpenstackVmware VcenterH3C Cloud OS

n  VCF  Controller集群

必选,VCF Controller 实现对于VPC网络的总体控制,南向接口支持Fabric设备提供的通用编程接口,支持如OpenflowOVSDBNetconfSNMP等协议,北向接口支持Restful API

n  VNF Manager

VNF Manager实现对NFV设备如VFWVLB的生命周期管理。

n   VXLAN GW

必选, VXLAN GW包括vSwitch ,S68,VSR等,实现虚拟机,服务器等各种终端接入到VXLAN网络中。

n  VXLAN IP GW

必选,VXLAN IP GW包括S125-X, S98, VSR等,实现VXLAN网络和经典网络之间的互通。

n  虚拟化平台

可选,vSwitchVM运行的Hypervisor平台,目前主要包括CAS, VmwareKVM等。

n  Service安全设备

可选,包括VSR,VFW,VLBM9000,安全插卡等设备,实现东西向和南北向服务链服务节点的功能。

4.4  SDN Overlay网络与云对接

公有云或私有云(VPC)对网络的核心需求是:

l  租户隔离

l  网络自定义

l  资源大范围灵活调度

l  应用与网络位置无关

l  网络资源池化与按需分配

l  业务自动化:当虚拟机状态发生变化时(如上线、下线、迁移),网络业务资源自动实现按需动态调整。

H3C提出的解决方案:

l  利用VXLAN Overlay提供一个“大二层”网络环境,满足资源灵活调度的需求;

l  SDN控制器VCFC实现对整个Overlay网络的管理和控制;

l  VXLAN GW实现服务器到VXLAN网络的接入;

l  VXLAN IP GW实现VXLAN网络与传统网络的对接;

l  NFV设备(vSR/vFW/vLB)实现东西向和南北向服务链服务节点的功能;

l  SDN控制器与云管理平台对接,可实现业务的自动化部署。

4.4.1  SDN Overlayopenstack对接

                                                                                                  图8 SDN Overlayopenstack对接

如上图所示,与标准的Openstack对接:采用在Neutron Server中安装VCFC插件的方式,接管Openstack网络控制。Openstack定义的插件如下表所示:

可对接Neutron插件举例

可对接对象举例

ml2

network

subnet

Port

l3

router

floatingip

vpnaas

Vpnservice/ikepolicy

fwaas

Firewall/firewall_policy

lbaas

memberpool

Openstack插件类似于一个硬件driver,以网络组件Neutron为例,Neutron本身实现抽象的虚拟网络功能,Neutron先调用插件把虚拟网络下发到VCFC,然后由VCFC下发到具体的设备上。插件可以是核心组件也可以是一项服务:核心插件实现“核心”的Neutron API——二层网络和IP地址管理。服务插件提供“额外”的服务,例如三层路由、端口QOS、端口安全、负载均衡、VPN、防火墙和计费等。

H3C VCFC实现了上述插件,在插件里通过REST APINuetron的配置传递给VCFCVCFC进行可视化的网络业务编排通过Openflow流表等手段下发到硬件交换机、NFV以及vSwitch上,以实现相应的网络和服务功能。

VCFCH3C CloudOS对接也是采用Neutron插件的方式。

4.4.2  SDN Overlay与基于openstack的增强云平台对接

                                                                                  图9 SDN Overlay与基于openstack的增强云平台对接

考虑到openstack标准版本不一定都能满足用户的需求,很多基于openstack开发的云平台都在oenstack基础之上进行了增强开发,以满足自己特定的需求。

与这类增强的openstack版本对接时:

基础的网络和安全服务功能仍通过插件形式对接。 标准openstack版本的Nuetron组件未定义的增强功能,如服务链,IPS/AV等等,通过Rest API对接。

4.4.3  SDN Overlay与非openstack云平台对接

                                                                                        图10 SDN Overlay与非openstack云平台对接

CloudStack为例,VCFC与非Openstack云平台的对接通过Rest API进行,H3C提供了完整的用于实现虚拟网络及安全功能的Rest API接口。云平台调用这些接口来实现VM创建、删除、上线等一系列流程。

4.5  服务链在Overlay网络安全中的应用

4.5.1  什么是服务链

服务链定义:数据报文在网络中传递时,需要经过各种安全服务节点,按特定策略进行流分类后的报文,再按照一定顺序经过一组抽象业务功能节点,完成对应业务功能处理。这种方式打破了常规的网络转发逻辑,因此称为服务链。

服务链常见的服务节点(Service Node):防火墙(FW)、负载均衡(LB)、入侵检测(IPS)、VPN等。

H3C VCF控制器支持集中控制整个服务链的构建与部署,将NFV形态或硬件形态的的服务资源抽象为统一的服务资源池,实现服务链的自定义和统一编排。

服务链在实现overlay网络安全方面有独到的优势,服务链方案/VxLAN终结方案能够满足Openstack FWaaSLBaaS定义外,还能提供更灵活的FW/LB编排方案。

4.5.2  Overlay网络服务链节点描述

                                                                                                    图11 overlay网络服务链节点描述

如上图所示,overlay网络中的服务链主要由如下几个部件组成:

n  控制器(Controller):VTEPServiceNode上的转发策略都由控制器下发

n  服务链接入节点(VTEP1):通过流分类,确定报文是否需要进入服务链。需要进入服务链,则将报文做VXLAN+服务链封装,转到服务链首节点处理。

n  服务链首节点(SN1): 服务处理后,将用户报文做服务链封装,交给服务链下一个节点。

n  服务链尾节点(SN2):服务处理后,服务链尾节点需要删除服务链封装,将报文做普通VXLAN封装,转发给目的VTEP。如果SN2不具备根据用户报文寻址能力,需要将用户报文送到网关(VTEP3)VTEP3再查询目的VTEP发送。

4.5.3  服务链在overlay网络安全中的应用

                                                                                                    图12 overlay网络服务链流程描述

上图是一个基于SDN的服务链流程。 SDN Controller实现对于SDN OverlayNFV设备、vSwitch的统一控制;NFV提供虚拟安全服务节点;vSwitch支持状态防火墙的嵌入式安全;同时SDN Controller提供服务链的自定义和统一编排。我们看一下,假设用户自定义从VM1VM3的业务流量,必须通过中间这样FWLB等几个环节,通过SDN的服务链功能,业务流量一开始就严格按照控制器的编排顺序经过这组抽象业务功能节点,完成对应业务功能的处理,最终才回到VM3,这就是一个典型的基于SDN的服务链应用方案。

SDN Overlay组网方案设计

Overlay控制平面架构可以有多种实现方案,例如网络设备之间通过协议分布式交互的方式。而基于VCF控制器的集中式控制的SDN Overlay实现方案,以其易于与计算功能整合的优势,能够更好地使网络与业务目标保持一致,实现Overlay业务全流程的动态部署,在业界逐步成为主流的Overlay部署方案。

5.1  SDN Overlay组网模型:

                                                                                                         图13 SDN Overlay组网模型

如上图所示,H3CSDN Overlay组网同时支持网络Overlay、主机Overlay和混合Overlay三种组网模型:

n  网络Overlay:在这种模型下,所有Overlay设备都是物理设备,服务器无需支持Overlay,这种模型能够支持虚拟化服务器和物理服务器接入;

n  主机Overlay:所有Overlay设备都是虚拟设备,适用服务器全虚拟化的场景,物理网络无需改动;

n  混合Overlay:物理设备和虚拟设备都可以作为Overlay边缘设备,灵活组网,可接入各种形态服务器,可以充分发挥硬件网关的高性能和虚拟网关的业务灵活性。

三种Overlay商用模型都通过VCF控制器集中控制,实现业务流程的下发和处理,应该说这三种Overlay模型都有各自的应用场景。用户可根据自己的需求从上述三种Overlay模型和VLAN VPC方案中选择最适合自己的模型。

5.1.1  网络Overlay

n  定位

网络Overlay组网里的服务器可以是多形态也无需支持Overlay功能,所以网络Overlay的定位主要是网络高性能、与Hypervisor平台无关的Overlay方案。

n  面向客户

网络Overlay主要面向对性能敏感而又对虚拟化平台无特别倾向的客户群。该类客户群的网络管理团队和服务器管理团队的界限一般比较明显。

5.1.2  主机Overlay

n  定位

主机Overlay不能接入非虚拟化服务器,所以主机Overlay主要定位是配合VMAWREKVM等主流Hypervisor平台的overlay方案。

n  面向客户

主机Overlay主要面向已经选择了虚拟化平台并且希望对物理网络资源进行利旧的客户。

5.1.3  混合Overlay

n  定位

混合Overlay组网灵活,即可以支持虚拟化的服务器,也可以支持利旧的未虚拟化物理服务器,以及必须使用物理服务器提升性能的数据库等业务,所以混合Overlay的主要定位是Overlay整体解决方案,它可以为客户提供自主化、多样化的选择。

n  面向客户

混合Overlay主要面向愿意即要保持虚拟化的灵活性,又需要兼顾对于高性能业务的需求, 或者充分利旧服务器的要求,满足客户从传统数据中心向基于SDN的数据中心平滑演进的需求。

5.2  H3C SDN Overlay典型组网

5.2.1  网络Overlay

网络Overlay的隧道封装在物理交换机完成。这种Overlay的优势在于物理网络设备性能转发性能比较高,可以支持非虚拟化的物理服务器之间的组网互通。

H3C提供的网络Overlay组网方式,支持以下转发模式:

1控制器流转发模式控制器负责Overlay网络部署、主机信息维护和转发表项下发,即VXLAN L2 GW上的MAC表项由主机上线时控制器下发,VXLAN IP GW上的ARP表项也由控制器在主机上线是自动下发,并由控制器负责代答和广播ARP信息。这种模式下,如果设备和控制器失,设备会临时切换到自转发状态进行逃生

2数据平面EVPN转发模式: 控制器负责Overlay网络的灵活部署,转发表项由Overlay网络交换机通过MP-BGP EVPN学习,即VXLAN L2 GW上自学习主机MAC和网关MAC信息,VXLAN IP GW上可以通过EVPN路由学习主机ARP信息并在网关组成员内同步。

3. 混合转发模式: 同时控制器也可以基于主机上线向VXLAN IP GW上下发虚机流表,如果VXLAN IP GW上自学习ARP和控制器下发的虚机流表信息不一样,则以VXLAN IP GW上自学习ARP表项为主,交换机此时触发一次arp请求,保证控制器和交换机自学习主机信息的正确性和一致性;数据平面自转发模式下ARP广播请求报文在VXLAN网络内广播的同时也会上送控制器,控制器可以做代答,这种模式是华三的一种创新,实现了Overlay网络转发的双保险模型。

                                                                                                                 图14 网络Overlay

在图14的组网中,VCFC集群实现对整个VXLAN网络的总体控制,以及对VNF的生命周期管理和服务链编排;VCFC可以同OpenstackVMware VcenterH3Cloud OS等其他第三方云平台,通过插件方式或REST API方式进行对接。

集中式网关部署模式:物理交换机125X/S98充当VXLAN IP GW,提供Overlay网关功能,实现VXLAN网络和经典网络之间的互通,支持Overlay报文的封装与解封装,并根据内层报文的IP头部进行三层转发,支持跨Overlay网络之间的转发,支持Overlay网络和传统VLAN之间的互通以及Overlay网络与外部网络的互通;H3C S6800充当VTEP,支持Overlay报文的封装与解封装,实现虚拟机接入到VXLAN网络中。

分布式网关部署模式:物理交换机125X/S98充当Fabric网络中的Spine节点,提供MP-BGP EVPNRRRoute Reflector)功能,物理交换机S6800作为分布式VXLAN IP GW,提供Overlay网关功能,实现VXLAN网络和经典网络之间的互通,支持Overlay报文的封装与解封装,并根据内层报文的IP头部进行三层转发,支持跨Overlay网络之间的转发,支持Overlay网络和传统VLAN之间的互通以及Overlay网络与外部网络的互通;H3C S6800充当VTEP,支持Overlay报文的封装与解封装,实现虚拟机接入到VXLAN网络中。

Service安全设备属于可选项,包括VFWVLBM9000L5000等设备。东西向,支持基于VFWVLB的服务链;南北向可以由125X串联M9K实现NATFW等服务,125X旁挂L5000提供LB服务,由VCFC实现引流。

(一)  集中式网关部署模式:

                                                                                                                图15 无状态IP网关

如上图,在网络Overlay的组网模型中,125X/S98作为Overlay网关功能,考虑到网关的扩容功能,可以采用无状态IP网关方案:

n  VXLAN IP GW实现VXLAN网络与传统网络的互联互通;

n  网关组内的VXLAN IP GW设置相同的VTEP IP地址,设置相同的VNI接口IP地址及MAC地址,VTEP IP地址通过三层路由协议发布到内部网络中;

n  支持多台VXLAN IP GW组成网关组;

无状态网关的业务流向如下:

n  北向:VTEP设备通过ECMPHASH时变换UDP端口号)将VXLAN报文负载均衡到网关组内的不同网关上处理;

n  南向业务:每个网关都保存所有主机的ARP,并在外部网络上将流量分流给各网关;

n  路由延迟发布确保网关重启和动态加入时不丢包。

网络Overlay组网方案有以下优点:

·              更高的网卡和VXLAN性能。

·              通过TOR交换机实现端口、ACL,可以实现线速转发。

·              不依赖虚拟化平台,客户可以有更高的组网自由度。

·              可以根据需要自由选择部署分布式或者集中式控制方案。

·              控制面实现可以由H3C高可靠的SDN Controller集群实现,提高了可靠性和可扩展性,避免了大规模的复杂部署。

·              网关组部署可以实现流量的负载分担和高可靠性传输。

(二)  分布式网关部署模式:

分布式EVPN网关示意图

如图所示,在分布式EVPN网关组网中,每台VTEP设备都作为EVPN网关,对本地站点的流量进行三层转发,缓解了网关的压力。

分布式EVPN网关部署示意图

分布式EVPN网关采用对称IRB方式转发流量,即连接报文源和目的节点的网关(入口网关和出口网关)上都需要进行二层和三层转发。对称IRB方式引入了如下概念:

l  L3VNILayer 3 VNI,三层VXLAN ID):在网关之间通过VXLAN隧道转发流量时,属于同一路由域、能够进行三层互通的流量通过L3VNI来标识。L3VNI唯一关联一个VPN实例,通过VPN实例确保不同业务之间的业务隔离。

l  网关的Router MAC地址:每个分布式EVPN网关拥有一个唯一的Router MAC地址,用于在网关之间通过VXLAN隧道转发流量。报文在网关之间转发时,报文的内层MAC地址为出口网关的Router MAC地址。

l  如图1-9所示,在分布式EVPN网关组网中,所有的分布式EVPN网关(GW)上都存在以下类型的VSI虚接口:

l  作为分布式网关接口的VSI虚接口。该接口需要与VSIVPN实例关联。不同GW上相同VSI虚接口的IP地址必须相同,该IP地址作为VXLAN内虚拟机的网关地址。

l  承载L3VNIVSI虚接口。该接口需要与VPN实例关联,并需要指定L3VNI。关联相同VPN实例的VSI虚接口,共用该L3VNI

边界网关(Border)上也需要存在承载L3VNIVSI虚接口。

三层转发表项学习

三层流量通过查找FIB表项进行转发。FIB表项通过路由信息或ARP信息生成。

EVPN地址族下引入外部路由后,VTEP通过MP-BGP将该路由及其所属的L3VNI发布给远端VTEP,远端VTEP学习该路由,并将其添加到L3VNI对应VPN实例的FIB表项中,表项的出接口为两个VTEP之间的VXLAN隧道接口(Tunnel接口)、下一跳为路由的NEXT_HOP属性携带的地址(即对端VTEP的地址)。

VTEPARP信息学习分为两部分:

l  本地学习:学习本地站点内虚拟机的ARP信息。VTEP通过本地虚拟机发送的GARPRARP和对网关的ARP请求学习本地虚拟机的ARP信息,并添加ARP表项和FIB表项。VTEP判断GARPRARPARP请求所属的VSI,查找与该VSI关联的VSI虚接口。ARP表项和FIB表项的出接口为接收到报文的接口,该表项所属的VPN实例为VSI虚接口关联的VPN实例。

l  远端学习:学习远端站点内虚拟机的ARP信息。VTEP通过MP-BGP协议将本地的ARP信息及其所属的L3VNI通告给远端VTEP。远端VTEP学习该信息,但不会添加ARP表项,而是由路由管理模块添加FIB表项。该FIB表项的出接口为与L3VNI关联的VSI虚接口、下一跳为路由的NEXT_HOP属性携带的地址(即对端VTEP的地址),该表项所属的VPN实例为L3VNI对应的VPN实例。远端VTEP查找下一跳对应的ARP信息,并添加对应的ARP表项。

流量转发

分布式网关对流量的转发方式分为两种:

l  区分二三层转发方式:对于二层流量,查找MAC地址表进行转发;对于三层流量,查找FIB表进行转发。在该方式下,建议在分布式网关上开启ARP泛洪抑制功能,以减少泛洪流量。

l  全三层转发方式:对于二层和三层流量,均查找FIB表进行转发。在该方式下,需要在分布式网关上开启本地代理ARP功能(ARP代答)。

5.2.2  主机Overlay

主机Overlay将虚拟设备作为Overlay网络的边缘设备和网关设备,Overlay功能纯粹由服务器来实现。主机Overlay方案适用于服务器虚拟化的场景,支持VMwareKVMCAS等主流Hypervisor平台。主机Overlay的网关和服务节点都可以由服务器承担,成本较低。

H3C vSwitch(即S1020v)以标准的进程和内核态模块方式直接运行在Hypervisor主机上,这也是各开源或者商用虚拟化平台向合作伙伴开放的标准软件部署方式,性能和兼容性可以达到最佳。

S1020v上除了实现转发功能,还集成了状态防火墙功能,防火墙功能可以支持4层协议,如tcp/udp/ip/icmp等协议。可以基于(IP,目的IP,协议类型(如TCP),源端口,目的端口)5元组下发规则,可以灵活决定报文是允许还是丢弃。

状态防火墙和安全组的区别是,状态防火墙是有方向的,比如VM1VM2之间互访,状态防火墙可以实现VM1能访问VM2VM2不能访问VM1这样的需求。

                                                                                                       图16 vSwitch集成状态防火墙

如上图所示,vSwitch功能按下述方式实现:

n  VCFC通过OVSDB通道将DFW策略下发给S1020V

n  S1020V集成DFW功能,依据下发的防火墙策略对端口报文做相应处理。

n  配置DFW策略后,OVS的原有转发流程会以黑盒的形式嵌入到Netfilter框架的报文处理过程中,接收到报文后依据配置的DFW策略在Netfilter的对应阶段调用相应的钩子函数实现对应的防火墙功能。

n  在虚机迁移或删除时,VCFC控制下发相关防火墙策略随即迁移,实现整个数据中心的分布式防火墙功能。

在主机Overlay情况下,H3C vSwitch即承担了VTEP(即VXLAN L2 GW)功能,也可以承担东西向流量三层网关的功能。三层网关同时亦可以由NFV、物理交换机分别承担。vSwitch功能也可以实现Overlay网络内虚机到虚机的跨网段转发。按照VXLAN三层转发实现角色的不同,可以分为以下几个方案:

1.      东西向分布式网关转发方案

如图17所示,在分布式网关情况下,采用多个vSwitch逻辑成一个分布式三层网关,东西向流量无需经过核心设备Overlay层面的转发即可实现东西向流量的跨VXLAN转发,以实现跨网段最短路径转发;南北向的流量仍然会以核心spine设备作为网关,虚机访问外网时,vSwitch先把报文通过VXLAN网络转发到Spine设备上,Spine设备进行VXLAN解封装后再根据目的IP转发给外部网络。

                                                                                                         图17 东西向分布式网关方案

2.      NFV设备VSR做网关方案

VSR做网关的情况下, VXLAN IP GWVXLAN L2 GW、服务节点都由服务器来实现,如下图所示:

                                                                                                图18 VSR做网关的主机Overlay方案

VCFC集群实现对整个VXLAN网络的总体控制,以及对VNF的生命周期管理和服务链编排;VCFC可以同OpenstackVMware VcenterH3Cloud OS等其他第三方云平台,通过插件方式或REST API方式进行对接。

NFV设备VSR充当VXLAN IP GW,提供Overlay网关功能,实现VXLAN网络和经典网络之间的互通,支持Overlay报文的封装与解封装,并根据内层报文的IP头部进行三层转发,支持跨Overlay网络之间的转发,支持Overlay网络和传统VLAN之间的互通以及Overlay网络与外部网络的互通;H3C S1020v充当L2 VTEP,支持Overlay报文的封装与解封装,实现虚拟机接入到VXLAN网络中,其中H3C S1020v支持运行在ESXiKVMH3C CAS等多种虚拟化平台上。

Service安全设备属于可选项,包括VSRVFWVLB等设备,实现东西向和南北向服务链服务节点的功能。

3.      物理交换机做网关方案

如图19所示,同纯软主机Overlay方案相比,软硬结合主机Overlay方案使用Spine设备做VXLAN IP GWSpine设备可以使用125-X/98,也可以使用S10500,在使用S10500S1020v组合的情况下可以实现更低的使用成本。Service安全设备属于可选项,包括VFWVLBM9000L5000等设备。东西向,支持基于VFWVLB的服务链;南北向可以由125-X串联M9000实现NATFW等服务,125-X旁挂L5000提供LB服务,由H3Cloud OS通过PBR实现引流。

                                                                                           图19 物理交换机做网关的主机Overlay方案

主机Overlay组网方案总体来说有以下优点:

·              适用于服务器虚拟化的场景,成本较低。

·              可以配合客户已有的VMwareMicrosoft等主流Hypervisor平台,保护客户已有投资。

·              可以根据需要自由选择部署分布式或者集中式控制方案。

·              控制面实现可以由H3C高可靠的SDN Controller集群实现,提高了可靠性和可扩展性,避免了大规模的复杂部署。

·              物理交换机做网关的情况下,也同网络Overlay一样可以使用多网关组功能,网关组部署可以实现流量的负载分担和高可靠性传输。

·              vSwitch作为东西向IP网关时,支持分布式网关功能,使虚机迁移后不需要重新配置网关等网络参数,部署简单、灵活。

5.2.3  混合Overlay

如图20所示,混合Overlay是网络Overlay和主机Overlay的混合组网,可以支持物理服务器和虚拟服务器之间的组网互通。它融合了两种Overlay方案的优点,既可以充分利用虚拟化的低成本优势,又可以发挥硬件GW的转发性能、将非虚拟化设备融入Overlay网络, 它可以为客户提供自主化、多样化的选择。

                                                                                                                 图20 混合Overlay

VCFC集群实现对整个VXLAN网络的总体控制,以及对VNF的生命周期管理和服务链编排;VCFC可以同OpenstackVMware VcenterH3Cloud OS等其他第三方云平台,通过插件方式或REST API方式进行对接。

125X/S98充当VXLAN IP GW,提供Overlay网关功能,实现VXLAN网络和经典网络之间的互通,支持Overlay报文的封装与解封装,并根据内层报文的IP头部进行三层转发,支持跨Overlay网络之间的转发,支持Overlay网络和传统VLAN之间的互通以及Overlay网络与外部网络的互通;H3C S6800H3C S1020V充当VTEP,支持Overlay报文的封装与解封装,实现服务器和虚拟机接入到VXLAN网络中。

Service安全设备属于可选项,包括VFWVLBM9000L5000等设备。东西向,支持基于VFWVLB的服务链;南北向可以由125X串联M9K实现NATFW等服务,125X旁挂L5000提供LB服务,由VCFC实现引流。

5.2.4  Overlay组网总结

类别

组网

虚拟化平台支持

转发模型

适用场景

服务链方式

主机overlay

S1020V+VSR

CAS/VMWARE/KVM

流转发

适合海量租户,但单租户对转发性能要求不高的场景,如公有云,网络设备利旧或成本受限条件下的私有云

南北向VSR(自带FW功能)+VLB

东西向共享南北向NFV

都采用服务链方式

S1020V+S125

CAS/VMWARE/KVM

流转发

同纯软主机Overlay方案相比,主机Overlay软硬结合方案使用125-X10500VXLAN IP GW,跨网段转发性能较高;

跟网络Overlay相比,对TOR没有要求,不要求TOR承担VTEP功能

南北向采用PBRM9000+L5000)
东西向VFW+VLB单跳或者多跳服务链

网络overlay

S68+S125

ALL

流转发/MP-BGP

适合于要求高网络转发性能的场景,以及大规模网络的私有云应用场景

混合Overlay

S68+S125S1020V

CAS/VMWARE/KVM

流转发

混合业务场景,有部分业务要求高转发性能,如数据库,存储等

 

上述几种overlay组网均支持和Openstack K版本对接。

SDN Overlay转发流程描述

6.1  SDN Overlay EVPN转发流程

6.1.1  自动建立隧道、关联隧道

1.      邻居类型

iBGP邻居: iBGP是指邻居与本地路由器位于同一AS。部署iBGP时,为简化全连接配置,可以引入RR反射器。所有Leaf都只和RR建立BGP对等体关系。RR发现并接收VTEP发起的BGP连接后形成Client列表,将从某个VTEP收到的路由反射给其他所有的VTEPRR的部署位置可以是Spine,也可以是Leaf,还可以是独立出来的设备

eBGP邻居:eBGP邻居:eBGP是指邻居与本地路由器位于不同AS。部署eBGP时,则不需要RRBGP会自动将从eBGP邻居收到的EVPN消息发送给其他eBGPiBGP邻居,此时Spine相当于RR功能。

2.      VXLAN隧道自动建立

隧道建立:利用EVPNBGP RR实现邻居发现 ,每个设备都通告自己的VXLAN信息,每个VTEP设备都有全网的VXLAN信息以及VXLAN和下一跳的关系。VTEP设备会和那些跟自己有相同VXLAN的下一跳自动建立VXLAN隧道。

EVPN 控制平面实现隧道自动建立,如上图:

1)  Spine设备实EVPNBGP RR角色,Leaf设备实现EVPNRR Client角色

2)  RR ClientRR发起注册(携带自身IP/VxLAN列表)

3)  RR转发收到的报文给所有其它邻居RR Client

4)  RR Client根据收到的报文中的IP/VxLAN列表,在有相同VxLAN idVTEP之间自动创建     VxLAN隧道,自动关联VxLAN隧道和VxLAN

3.      VXLAN和隧道自动关联

       道自动关联:VTEP设备会和那些跟自己有相同VXLAN的下一跳自动建立VXLAN隧道,并将此VXLAN隧道跟这些相同的VXLAN关联。

目前EVPN使用的是Ingress Replication,即头端复制。所谓头端复制,就是在VXLAN转发实体里面存在一个需要复制到的远端VTEP设备隧道列表,此列表叫做BUM广播表。对于每个VXLAN而言,所有这些建立并关联的VXLAN隧道就形成BUM广播表。           

6.1.2  地址同步

地址同步:利用EVPN MP-BGP路由协议完成MAC地址同步、主机路由同步两个功能。因此,在EVPN网络里面,不需要将ARP请求泛洪到网络中。

地址同步流程,如上图:

(1)       VM1上线,VTEP A把学习到VM1MAC和主机路由通过BGP扩展协议向RR同步

(2)       RR把接收到的路由更新同步给所有邻居(VTEP B&C

(3)       VTEP接收到BGP报文,把学习到的VMMACIP地址添加到表项中,MAC放到相同VxLANL2表项中,路由放到L3表项中

地址学习:本地MACARP的学习仍然需要靠VTEP在数据层面完成,本地MAC的学习可以靠以太报文的源MAC学习获得。而ARP可以靠ARP或免费ARP等报文学习获得。本地学到MACARP后,EVPN控制面通过BGP邻居分发到其他VTEP设备,形成EVPN 2类路由

   集中式网关:在集中式网关里面,二层VTEP需要将学习到的ARP通告给网关,在GW上需要下发ARP,并产生32位直连路由。此路由的下一跳就是路由本身。ARP里的MAC为主机或虚机的真实MAC。从GWVTEP的报文转发时,在VTEP上做二层MAC转发。

分布式网关:在分布式网关里,每一个分布式网关都会将学习到的ARP通告给其他网关。在远端VTEP上,2类路由里面的IP会下发到VRF表形成32位主机路由,此路由的下一跳为通告此路由的VTEP设备。报文转发时,从网关发出的报文内层MAC为对端VTEP设备的MAC,因此报文在对端VTEP上做三层转发。

6.1.3  外部路由同步

EVPN网络构建的是一个私有网络,它也可以通过接入外网,实现跟外网通信的目的。Board Leaf通过普通接口跟外网建立普通路由协议,学习路由,然后在Board LeafEVPN可以引入这些外部路由,进而通告到EVPN网络中,使其他VTEP也能学到这些外部路由。这些路由的下一跳均指向通告此路由的Board Leaf。当网络中存在多台Board Leaf时,多台Board Leaf都可以通告此路由,这样在远端还可以形成等价路由,以达到网络负载分担的目的。

6.1.4  虚拟机迁移

VM地址迁移:是指虚拟机或主机从其介入的VTEP或网关设备迁到数据中心网络的另一台VTEP或网关下。如何使网络快速收敛的一种机制:

    迁移消息:新迁移到的VTEP或网关会重新感知到主机/虚拟机上线,会重新通告该MAC/IP路由,此路由跟迁移前通告的MAC/IP路由的区别在于在BGP update消息中携带了一种新的扩展团体:MAC Mobility扩展团体。此扩展团体里面包含一个序列号。

    消息更新:每次迁移,迁移序列号将递增,远端在收到一个比自己系列号更大的消息时,更新自己的MAC/IP路由消息,下一跳指向迁移后通告此路由的VTEPGW

    消息撤销:原VTEP在收到此路由更新后,撤销之前通告的路由。

6.1.5  ARP抑制

ARP抑制功能特点:

    泛洪抑制:为了避免广播发送的ARP请求报文占用核心网络带宽,VTEP根据从BGP收到的EVPN 路由在本地建立ARP缓存表项。

    ARP代答:后续当VTEP收到本站点内虚拟机请求其它虚拟机MAC地址的ARP请求时,优先根据本地存储的ARP表项进行代理回应。

    ARP MISS:如果没有对应的表项,则将ARP请求泛洪到核心网。

    特点:ARP泛洪抑制功能可以大大减少ARP泛洪的次数。

 

6.1.6  QOS配置

1)     VxLAN ID设置VxLAN DSCP

#匹配到vxlan1000的报文,把dscp值改为af11
traffic classifier 1 operator and
 if-match vxlan 1000
#
traffic behavior 1
 remark dscp af11
#
qos policy abc
 classifier 1 behavior 1
#
#QOS策略应用到物理接口上
interface Ten-GigabitEthernet1/0/2
 port link-mode route
 ip address 100.21.1.3 255.255.255.254
 qos apply policy abc outbound 
#

2)     内层DSCPvxlan DSCP的映射

在物理接口上直接配置qos trust dscp

interface Ten-GigabitEthernet1/0/2
 port link-mode route
ip address 100.22.1.3 255.255.255.254
qos trust dscp
#

 

6.2  SDN Overlay流表建立和发布

6.2.1  流表建立流程对ARP的处理

对于虚拟化环境来说,当一个虚拟机需要和另一个虚拟机进行通信时,首先需要通过ARP的广播请求获得对方的MAC地址。由于VXLAN网络复杂,广播流量浪费带宽,所以需要在控制器上实现ARP代答功能。即由控制器对ARP请求报文统一进行应答,而不创建广播流表。

ARP代答的大致流程:控制器收到OVS上送的ARP请求报文,做IP-MAC防欺骗处理确认报文合法后,从ARP请求报文中获取目的IP,以目的IP为索引查找全局表获取对应MAC,以查到的MAC作为源MAC构建ARP应答报文,通过Packetout下发给OVS

6.2.2  Overlay网络到非Overlay网络

Overlay网络到非Overlay网络的流表建立和路由发布如图21所示:

                                                                             图21 Overlay网络到非Overlay网络的流表建立和路由发布

创建VM的时候,会同时分配IPMAC信息。然后VM发送ARP请求报文,该报文会通过Packet-in被上送到控制器。控制器做IP-MAC防欺骗处理确认报文合法后,通过ARP代答功能构建ARP应答报文并通过Packet-out下发。

VM收到从ARP应答报文后,封装并发送IP首包。OVS收到IP首报后发现没有对应流表,就将该IP首包通过Packet-in上送控制器。控制器通过OpenFlow通道收到Packet-in报文后,判断上送的IP 报文的IP-MAC为真实的。然后根据报文中的目的IP查询目的端口,将IP首包直接发送到目的端口,同时生成相应流表下发OVS。若没有查询到目的端口,曾查询物理网关的MAC VTEP IP,把目的MAC替换成网关MAC,源MAC替换成虚机MAC,生成转发流表下发OVS IP首包也同时被packet outOVS匹配流表转发。

流表下发到OVS后,而后续的IP报文就会根据OVS上的流表进行转发,而不再需要上送控制器。

overlay网络到非overlay网络的路由处理需要用户首先在网管上预配置路由协议引入静态路由,然后控制器创建subnet并通过Netconfsubnet静态路由下发到GW,最终由GWoverlay子网路由发布到非overlay网络。

6.2.3  Overlay网络到Overlay网络

Overlay网络到Overlay网络的流表建立和路由发布如图22所示:

                                                                             图22 Overlay网络到Overlay网络的流表建立和路由发布

创建VM的时候,会同时分配IP MACUUID等信息。VM上线时会触发OVS发送Port Status消息上送控制器,该消息携带VM MAC信息。控制器根据VM MAC查找IP等相关信息,然后携带VM的相关信息通知GW虚机上线,VM的相关信息主要包括:VMIP地址,VM在虚拟网络中所属的VXLANVM连接的OVS IPOVSdatapath ID

GW首先根据OVS IP检查OVSGW之间是否已经存在一条可用的隧道。如果已存在,则直接使用找到的隧道,并修改隧道上的VM引用计数。如果不存在,则在预创建的隧道中选择一条可用的隧道,并根据OVS IP修改隧道的目的地址。

控制器根据VM上线消息中携带的数据,构造物理机向VM转发报文时使用的流表表项,并下发到VM所在VNI对应网关分组中的所有GW。流表表项的内容如下:

Match Field:入接口VM所属VNI对应的VPN绑定的三层口,目的IPVMIP

ActionRemark 目的MACOVS MACRemarkMACGWMAC,指定出接口为GWOVS之间的隧道口

从非overlay网络到overlay网络的路由处理是通过传统路由协议,将非虚拟化网络服务器对应子网发布到VXLAN-GW。此路由不引入到虚拟化网络。路由协议由用户手动配置。

6.3  Overlay网络转发流程

n  报文所属VXLAN识别

VTEP只有识别出接收到的报文所属的VXLAN,才能对该报文进行正确地处理。

VXLAN隧道上接收报文的识别:对于从VXLAN隧道上接收到的VXLAN报文,VTEP根据报文  中携带的VNI判断该报文所属的VXLAN

本地站点内接收到数据帧的识别:对于从本地站点中接收到的二层数据帧,VTEP通过以太网服务实例(Service Instance)将数据帧映射到对应的VSI VSI内创建的VXLAN即为该数据帧所属的VXLAN

n  MAC地址学习

本地MAC地址学习:指本地VTEP连接的本地站点内虚拟机MAC地址的学习。本地MAC地址通过接收到数据帧中的源MAC地址动态学习,即VTEP接收到本地虚拟机发送的数据帧后,判断该数据帧所属的VSI,并将数据帧中的源MAC地址(本地虚拟机的MAC地址)添加到该VSIMAC地址表中,该MAC地址对应的出接口为接收到数据帧的接口。

远端MAC地址学习:指远端VTEP连接的远端站点内虚拟机MAC地址的学习。远端MAC学习时,VTEPVXLAN隧道上接收到远端VTEP发送的VXLAN报文后,根据VXLAN ID判断报文所属的VXLAN,对报文进行解封装,还原二层数据帧,并将数据帧中的源MAC地址(远端虚拟机的MAC地址)添加到所属VXLAN对应VSIMAC地址表中,该MAC地址对应的出接口为VXLAN隧道接口。

6.3.1  Overlay网络到非Overlay网络

Overlay网络到非Overlay网络的转发流程如图23所示:

                                                                                       图23 Overlay网络到非Overlay网络的转发流程

虚拟机构造发送到物理机的报文,目的MACOVSMAC,目的IP为要访问的物理机的IP,报文从虚拟机的虚拟接口发出。

OVS接收到虚拟机发送的报文,根据报文中的目的IP匹配OVS上的流表表项。匹配到流表表项后,修改报文的目的MACVX-GWMAC,源MACOVSMAC,并从指定的隧道接口发送。从指定的隧道接口发送报文时,会在报文中添加VXLAN头信息,并封装隧道外层报文头信息。

VX-GW从隧道口接收到VXLAN隧道封装报文,隧道自动终结,得到内层报文。在VX-GW上已配置VNIVPN的映射关系,根据隧道报文的VNI信息,确定对应的VPN。在指定的VPN中,根据内层报文的目的IP按照FIB(非流表)进行报文三层转发,从出接口发送的报文为普通报文,其目的MAC为物理机MAC,源MACGW MAC,源IP为虚拟机IP,目的IP为物理机IP

报文按照传统网络的转发方式继续转发。物理机接收到VX-GW转发的报文,实现虚拟机到物理机的访问。

6.3.2  Overlay网络到Overlay网络

Overlay网络到Overlay网络的转发流程如图24所示:

                                                                                       图24 Overlay网络到Overlay网络的转发流程

物理机构造发送到虚拟机的报文,在传统网络中通过传统转发方式将报文转发到VX-GWVX-GW接收该报文时,报文的目的MACVX-GWMAC,目的IP为虚拟机的IP地址,从物理机发送出去的报文为普通报文。

VX-GW接收报文,根据报文的入接口VPN,目的IP和目的MAC匹配转发流表。匹配到流表后,修改报文的目的MACOVS的对应全局MAC00163FAAAAA),源MACGWMAC,并从指定的VXLAN隧道口发送。从隧道口发送报文时,根据流表中的信息添加VXLAN头信息,并对报文进行隧道封装。从GW发送报文为封装后的Overlay报文。

OVS接收到报文后,隧道自动终结。根据报文VNI和目的IP匹配转发流表。匹配到流表后,修改报文目的MAC为虚拟机MAC,修改报文源MACOVSMAC,并从指定的端口发送。从OVS发送的报文为普通报文。

根据报文的目的MAC,虚拟机接收到物理机发送的报文,实现物理机到虚拟机的访问。

6.4  Overlay网络虚机迁移

在虚拟化环境中,虚拟机故障、动态资源调度功能、服务器主机故障或计划内停机等都会造成虚拟机迁移动作的发生。虚拟机的迁移,需要保证迁移虚拟机和其他虚拟机直接的业务不能中断,而且虚拟机对应的网络策略也必须同步迁移。

虚拟机迁移及网络策略如图25所示:

                                                                                                     图25 虚拟机迁移及网络策略跟随

       网络管理员通过虚拟机管理平台下发虚拟机迁移指令,虚拟机管理平台通知控制器预迁移,控制器标记迁移端口,并向源主机和目的主机对应的主备控制器分布发送同步消息,通知迁移的VPort,增加迁移标记。同步完成后,控制器通知虚拟机管理平台可以进行迁移了。

       虚拟机管理平台收到控制器的通知后,开始迁移,创建VM分配IP等资源并启动VM。启动后目的主机上报端口添加事件,通知给控制器,控制器判断迁移标记,迁移端口,保存新上报端口和旧端口信息。然后控制器向目的主机下发网络策略。

       VM和目的执行内存拷贝,内存拷贝结束后,源VM关机,目的VM上线。源VM关机后,迁移源主机上报端口删除事件,通知给控制器,控制器判断迁移标记,控制器根据信息删除旧端口信息并同时删除迁移前旧端口对应的流表信息。

主控制器完成上述操作后在控制器集群内进行删除端口消息的通知。其他控制器收到删除端口信息后,也删除本控制器的端口信息,同时删除对应端的流表信息。源控制器需要把迁移后新端口通知控制器集群的其他控制器。其他控制器收到迁移后的端口信息,更新端口信息。当控制器重新收到Packet-in报文后,重新触发新的流表生成。

6.5  网络环路检测

两台Leaf设备的下行口(AC口)产生环路,控制器将产生环路智能检测和告警。

l  无需使能loopback-detection,缺省使能的STP即可检测到环路,并阻塞其中一个端口。

l  缺省使能的STP,可检测到环路,并阻塞冗余链路。

l  Leaf设备上通过flooding disable命令,也可禁止报文泛洪。

6.6  SDN Overlay升级部署方案

6.6.1  SDN Overlay独立分区部署方案

                                                                                           图26 DC增量部署,SDN Overlay独立分区

基于对原有数据中心改动尽量少的思路下,可以把SDN Overlay部署在一个独立分区中,作为VXLAN IP GW的核心交换机作为Underlay出口连接到原有网络中,对原有网络无需改动,南北向的安全设备和原有DC共享。

场景:在现有数据中心的独立区域部署,通过原有网络互联。

6.6.2  IP GW旁挂部署方案

                                                                                                     图27 DC增量部署,IP GW旁挂

考虑到尽量利用原有数据中心空间部署VXLAN网络的情况下,可以采用物理交接机(S125-X/S98)作为VXLAN IP GW旁挂的方案,与经典网络共用核心;而VXLAN网络作为增量部署,对原有网络改动小。

场景:利用现有数据中心剩余空间增量部署。

6.6.3  核心升级,SDN Overlay独立分区

                                                                                           图28 核心利旧升级,SDN Overlay独立分区

核心设备升级为支持VXLAN IP GWS125-X,同时作为传统和Overlay网络的核心,原有网络除核心设备外保持不变,充分利旧,保护用户原有投资。安全设备物理上旁挂在核心S125-X上,通过VCFCVPC流量引流到安全设备进行安全防护。

场景:全新建设数据中心区域,或者升级现有中心的网络核心,原有服务器和网络设备重复利用。

6.6.4  Overlay网关弹性扩展升级部署

受制于芯片的限制,单个网关设备支持的租户数量有限,控制器能够动态的将不同租户的隧道建立在不同的Overlay网关上,支持Overlay网关的无状态分布,实现租户流量的负载分担。

如图29所示,Overlay网络可以支持Overlay网关随着租户数量增加的扩充,当前最大可以支持超过64K个租户数量,从而提供一个具有弹性扩展能力的Overlay网络架构。

                                                                                                         图29 Overlay网络弹性扩展

6.6.5  多数据中心同一控制器集群部署

                                                                                                 图30 多数据中心同一控制器集群部署

控制器跨数据中心部署在多个数据中心,把多个数据中心逻辑上连接为一个数据中心:

l  任一个GW上有全网所有的虚拟机信息,任意一个GW上都可以正确通过Overlay隧道转发到正确的虚拟机。

l  一个网关组发布相同的VTEP IP地址,每一个数据中心会自动根据最短路径算法,将选择本数据中心的核心设备作为网关,实现本地优先转发。

l  4台控制器的部署,推荐使用2Leader+2Member的主备模式,每个中心各一台Leader和一台Member4台以上推荐采用多数派/少数派模式。

l  跨数据中心互联的要求:核心交换机之间光纤直连,距离300公里以内,时延10ms以内,带宽10G以上。

SDN Overlay方案优势总结

Ø  网络架构方面具有下述明显优势:

n  应用与位置解耦, 网络规模无限弹性扩展;

n  网络虚拟化, 实现大规模多租户和业务隔,单台控制器可管理300VXLAN节点

n  支持多种Overlay模型,满足场景化需求;

n  跨多中心的网络资源统一池化,随需分配。

Ø  网络安全方面具有下述特点:

n  各种软硬件安全设备灵活组合,形成统一安全资源池;

n  丰富的安全组合功能,可以充分满足云计算安全合规要求;

n  针对主机,南北和东西向流量,可以实现精细化多层次安全防护;

n  通过服务链,可以实现安全业务的灵活自定义和编排。

Ø  网络业务发放具有下述优点:

n  支持VPC多租户虚拟网络:基于OpenStack模型,租户相互隔离、互不干扰,各租户可提供独立FW/LB/NAT等服务;

n  网络灵活自定义:租户虚拟网络根据自身需求可灵活自定义,实现对于SDNNFV的融合控制;

n  网络自动化:业务流程全自动发放,配置自动化下发,业务部署从数天缩短到分钟级;

n  与云无缝对接融合:实现网络,计算与存储的无缝打通, 实现云计算业务的自助服务;

Ø  在网络运维上能充分满足客户需求:

n  支持智能化诊断:全面覆盖的故障自动探测,雷达仿真,故障定位和自动修复;

n  支持流量可视化:应用,虚拟,网络拓扑的统一呈现, 资源映射, 流量统计,路径和状态感知;

n  支持自动化运维:用户能够自定义网络运维管理能力,实现DC内自定义流量调度,动态流量自动监控分析。