手册下载
H3C SeerAnalyzer-DC 用户手册-5W100-整本手册.pdf (15.74 MB)
H3C SeerAnalyzer-DC
用户手册
资料版本:5W100-20230720
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
分析组件聚焦于机器数据的价值挖掘,以大数据技术为基础,通过机器学习、深度学习等手段,从海量数据中分析有价值的信息,为企业网络及业务运维以及商业决策提供参考依据。分析组件通过对设备性能、用户接入、业务流量的实时数据采集和状态感知,通过大数据分析技术和人工智能算法,将网络的运行可视化,主动感知网络的潜在风险并自动预警。
分析组件所分析的数据主要包括:网络设备运行数据、网络业务应用流量数据、用户接入和使用网络的记录数据等。
DC场景功能简介:
数据中心分析组件以保障数据中心网络的高可靠、低延时为目的。通过全时全量采集网络设备运行信息,建立起全网的健康度评估体系,支持对数据中心内TCP\UDP的会话分析、应用的可视与分析、芯片级缓存监控和丢包分析。对数据中心网络运维实现了全方位支持与保障。
本文将详细介绍分析组件各模块的功能,在使用各个功能前建议先根据《AD-DC 6.3智能分析业务配置指导》完成使用前的相应配置。
先知分析组件(SeerAnalyzer)新一代网络智能分析系统。SeerAnalyzer采用Telemetry等技术实时全量采集网络运行状态数据,通过ERSPAN、INT等技术远程镜像关键报文,利用大数据技术对这些数据进行高效的预处理和存储,使用高性能计算引擎对海量数据进行实时和离线计算,通过专家知识和场景AI算法对复杂的数据进行智能分析,洞察全网健康状态和问题,结合专家知识和关联算法对问题进行根因定位,并对关键故障进行AI预测。
图2-1 SeerAnalyzer产品架构
图2-2 SeerAnalyzer-DC分析组件组网图
在数据中心组网中最典型的组网是Spine-Leaf两层架构。如图2-3所示,这种扁平化组网比多层架构有更好的流量收敛比以及更高的转发性能。在一些特定的领域,出于安全或者隔离的需求,会将网关分离或者增加边界设备,都是基于Spine-Leaf架构进行组网扩展的。
图2-3 Spine-Leaf两层架构示意图
在一些特殊场景,还可以扩展为:Spine-Aggregation-Leaf三层架构和Spine-Aggregation-Leaf-Access四层架构。
在数据中心的网络架构中,设备在不同层次的网络中承担不同的角色,我们称之为设备角色(Device Role),主要包含以下角色:
· Spine角色:作为核心节点角色,一般南向和Leaf角色设备建立全连接,Spine对所有Leaf角色设备承担RR路由反射器作用,Spine与Leaf会创建iBGP邻居。另外如果作为Border设备时北向可与外部网络连接实现外网通信。
· Aggregation角色:作为Spine和Leaf的中间层,主要用于一些特殊场景,用于拉通Spine和Leaf,扩充Spine接口。
· Leaf角色:接入层设备,一般用于接入用户的服务器,也是EVPN网络中的VTEP端点的承载角色。Leaf与Spine会创建iBGP邻居。
· Access角色:二层设备,工作在Leaf和Server之间,主要用于二层拉通Leaf和Server。Access没有Overlay层业务也不涉及Underlay路由协议。
在Spine-Leaf的两层网络架构的基础上,还会有一些额外的组网需求,例如要求网关和Spine设备合一,要求部署安全隔离等。在这样的组网需求下,除了设备本身的功能外,有些设备需要承担边界网关的功能。我们为这些承担不同功能的设备划分了不同的设备类型(Device Type),主要包含以下几种:
· 接入设备:连接服务器的设备,承担接入设备功能。
· 边界设备:在单Fabric网络或者多Fabric组网中承担边界网关的功能。
· Underlay物理设备:Underlay网络中该设备不进行VXLAN隧道解封装,该设备支持OpenFlow协议,业务报文在该设备上进行传统的二三层转发。
· 传统设备:仅通过SNMP协议管理的设备,用于配合链路发现。
在组网中,设备角色和设备类型配置方式建议为:
· 首先根据设备在组网中的位置,指定设备角色。
· 如果需要承担出口网关功能,则将设备类型指定为边界设备。
· 如果不需要承担出口网关功能,则Spine设备的设备类型推荐为Underlay物理设备,Leaf设备的设备类型推荐为接入设备。
Overlay网络是一种逻辑网络,它在基础网络之上构建一个逻辑拓扑结构,通常用于构建开放、动态的分布式系统。这个Overlay网络可以覆盖多个物理网络和设备,其节点间通过虚拟连接进行通信,形成一个逻辑网络。Overlay网络可以在物理网络之上实现新的网络功能,例如寻址、路由选择、多路径传输等,同时,也可以增强物理网络的可靠性、安全性和可扩展性。
Overlay网络可以提供更好的保密性和安全性,因为它可以使用专用的加密技术,只有合法接入的节点才能访问或处理数据。Overlay网络还可以帮助应用程序提高性能和资源利用率,因为它可以将多个物理网络的带宽和计算能力集成成一个单一的逻辑网络。另外,Overlay网络还可以缓解互联网拓扑结构限制带来的问题,例如网络路由的不可用性、主机移动和网络故障等问题。
Overlay网络广泛应用于分布式系统、对等网络、内容分发网络、云计算和物联网等领域,其中最著名的应用是对等网络(P2P网络)。在对等网络中,各个节点通过Overlay网络直接进行通信和资源共享,提高资源利用率和传输效率,从而形成了一种新的分布式通信模式。
Underlay网络是物理网络,是指在物理层面上构建的网络拓扑结构,用于从一个地方到另一个地方传输数据。Underlay网络提供了基本的物理层面的网络连接,包括物理连接、路由选择和网络拓扑结构等。Underlay网络使得传输数据的终端节点之间的通信变得可靠、快速、安全,是构建Overlay网络的基础。
Underlay网络使用物理设备和物理参数来构建网络拓扑结构,例如路由器、交换机、线路和接口等,这些设备和参数可分为两类:传输介质和端点,它们一起构成了物理网络的基础层。
Underlay网络是网络安全中的一项核心要素。在网络安全中,网络架构师需要在Underlay网络上构建Overlay网络,这样可以为多个应用程序和业务场景提供更好的安全性、高效性和可靠性。例如,云计算环境下的安全隔离、容器网络、虚拟私有网络(VPN)等应用场景都依赖于Underlay网络作为基础。
总之,Underlay网络是一种实际的、物理的网络结构,为更高层次的Overlay网络提供了基础通信手段。它是构建网络结构和应用程序的必要基础,并且直接影响网络性能、安全性和可靠性。
Fabric是一个虚拟的物理连通域,其中包含交换设备和设备组,域内的所有设备均相互可达。
在Spine-Leaf的扁平化组网架构中,每个Spine-Leaf的网络可以作为一个独立的物理单元进行部署,这个物理单元我们称为Fabric。每个Fabric可以是一排独立的机架,或者一个独立的机房。Fabric架构的组网可以做到故障域隔离,并具备弹性扩展能力。一个Fabric内的设备异常不会影响其他Fabric的业务运行,不同Fabric间不需要Spine设备和所有的Leaf设备全互联,只需用各自提供一台边缘设备进行互联,即可实现Fabric间路由互通,简化了组网结构。
如需对网络进行扩容,只需新增一套Spine-Leaf组网,然后进行Fabric间互联就可以完成扩容,网络扩容也不再受Spine设备的端口数限制。
MTU( Maximum Transmission Unit)表示能在网络上发送的最大数据报大小。MTU是一个网络协议的参数,为了在数据传输过程中避免数据包被分割或重组,网络中的每个数据包都必须小于等于MTU。MTU大小取决于网络技术。例如,在以太网中MTU通常为1500字节,FDDI(Fiber Distributed Data Interface)MTU为4470字节。
MTU大小的变化可能会对TCP数据包的传输性能产生影响。如果TCP数据包的大小大于MTU,则需要分段进行发送,从而增加了网络的负载和延迟。在信道质量较差的情况下,分段可能会导致数据包丢失,从而降低了数据传输的可靠性。 TCP实现通常调整发送方的最大TCP分段大小(MSS),以保证TCP数据包在网络上传输的可靠性和效率。
在调试网络问题时,MTU大小可能是一个重要的问题。如果MTU设置不正确,数据传输可能无法正常进行。例如,在使用虚拟专用网络(VPN)时,不同的VPN工具和配置可能需要不同的MTU设置,以保证数据传输的正常进行。在实际配置中,需要注意MTU的设定,以确保网络的正常和高效运行。
VLAN(Virtual Local Area Network)是指虚拟局域网,是一种可将局域网拆分成多个逻辑上独立的子网的技术。VLAN通过网络交换机上的软件配置,将局域网上的设备虚拟划分成多个逻辑上的子网,不受物理位置、拓扑结构和物理设备限制。这些子网之间相互隔离,只能在设备上进行互通,提高网络的安全性、可管理性和可扩展性。
VLAN在网络架构中有很重要的应用,可以为企业提供更加灵活和安全的网络隔离方式。同一VLAN中的设备无论地理位置如何,都可以进行通信,相邻的VLAN之间则必须经过网络层设备的路由才能实现通信。因此,VLAN可以在不同的物理网络上创建逻辑网络,并使它们支持安全的互联,从而降低网络维护的成本。
VLAN还可以通过广播控制,减少网络拥堵和广播风暴现象的发生。由于不同VLAN之间的互联必须使用路由器进行切换,广播信息无法跨越VLAN进行传播,从而避免了大量不必要的通信流量。
总之,VLAN是一个非常强大的网络管理技术,允许企业在同一网络中实现隔离、分组和管理。它通过将物理网络划分为多个逻辑网络,提高了网络的安全性、可维护性和可扩展性。
随着虚拟化技术的快速发展,数据中心的规模不断扩大,数据中心租户和虚拟机的数量呈爆发式增长,传统的二层网络面临着巨大的挑战:
· VLAN资源不足传统的二层网络隔离技术VLAN,因其标识相互隔离的虚拟二层网络的Tag域只有12比特,仅能划分出4096个相互隔离的虚拟二层网络,远远无法满足大二层网络中隔离大量租户的需求。
· 虚拟机迁移为了实现网络业务和资源的灵活调配,虚拟机跨设备甚至跨数据中心的迁移越来越频繁。为了保证虚拟机迁移过程中业务不中断,虚拟机迁移前后的IP地址和MAC地址需要保持不变,而传统网络技术无法实现虚拟机迁移前后的IP、MAC不变。
同时,随着数据中心多中心的部署,虚拟机的跨数据中心迁移、灾备,跨数据中心业务负载分担等需求,使得二层网络的扩展不仅是在数据中心的边界为止,还需要考虑跨越数据中心机房的区域,延伸到同城备份中心、远程灾备中心。一般情况下,多数据中心之间是通过路由连通的,天然是一个三层网络。而要实现通过三层网络连接的两个二层网络互通,就必须实现“L2 over L3”。VXLAN(Virtual eXtensible LAN,可扩展虚拟局域网络)是基于IP网络、采用“MAC in UDP”封装形式的二层VPN技术。VXLAN可以基于已有的服务提供商或企业IP网络,为分散的物理站点提供二层互联,并能够为不同的租户提供业务隔离。VXLAN 主要应用于数据中心网络和园区接入网络。
· 支持大量的租户:使用24位的标识符,最多可支持2的24次方(16777216)个VXLAN,支持的租户数目大规模增加,解决了传统二层网络VLAN资源不足的问题。
· 虚拟机迁移IP、MAC不变:采用了MAC in UDP的封装方式,实现原始二层报文在IP网络中的透明传输,保证虚拟机迁移前后的IP和MAC不变。
· 易于维护:基于IP网络组建大二层网络,使得网络部署和维护更加容易,并且可以充分地利用现有的IP网络技术,例如利用等价路由进行负载分担等;只有IP核心网络的边缘设备需要进行VXLAN处理,网络中间设备只需根据IP头转发报文,降低了网络部署的难度和费用。
图2-4 VXLAN网络模型示意图
如图2-4所示,VXLAN的典型网络模型中包括如下几部分:
· 用户终端(Terminal):用户终端设备可以是PC机、无线终端设备、服务器上创建的VM(Virtual Machine,虚拟机)等。不同的用户终端可以属于不同的VXLAN。属于相同VXLAN的用户终端处于同一个逻辑二层网络,彼此之间二层互通;属于不同VXLAN的用户终端之间二层隔离。
本文档中如无特殊说明,均以VM为例介绍VXLAN工作机制。采用其他类型用户终端时,VXLAN工作机制与VM相同,不再赘述。
· VTEP(VXLAN Tunnel End Point,VXLAN隧道端点):VXLAN的边缘设备。VXLAN的相关处理都在VTEP上进行,例如识别以太网数据帧所属的VXLAN、基于VXLAN对数据帧进行二层转发、封装和解封装报文等。VTEP可以是一台独立的物理设备,也可以是虚拟机所在的服务器。VTEP可以划分为VTEP和GW两种角色:
¡ VTEP:只支持VXLAN二层转发功能的设备,即只能在相同VXLAN内进行二层转发。
¡ GW:可以进行跨VXLAN或者访问外部IP网络等三层转发的设备。根据部署方式,GW可以分为集中式网关和分布式网关两种。
· VXLAN隧道:两个VTEP之间的点到点逻辑隧道。VTEP为数据帧封装VXLAN头、UDP头和IP头后,通过VXLAN隧道将封装后的报文转发给远端VTEP,远端VTEP对其进行解封装。
· 核心设备:IP核心网络中的设备(如图2-4中的P设备)。核心设备不参与EVPN处理,仅需要根据封装后报文的外层目的IP地址对报文进行三层转发。
· VXLAN网络:用户网络可能包括分布在不同地理位置的多个站点内的用户终端。在骨干网上可以利用VXLAN隧道将这些站点连接起来,为用户提供一个逻辑的二层VPN。这个二层VPN称为一个VXLAN网络。VXLAN网络通过VXLAN ID来标识,VXLAN ID又称VNI(VXLAN Network Identifier,VXLAN网络标识符),其长度为24比特。不同VXLAN网络中的用户终端不能二层互通。
· VSI(Virtual Switch Instance,虚拟交换实例):VTEP上为一个VXLAN提供二层交换服务的虚拟交换实例。VSI可以看作是VTEP上的一台基于VXLAN进行二层转发的虚拟交换机。它具有传统以太网交换机的所有功能,包括源MAC地址学习,MAC地址老化,泛洪等。VSI与VXLAN一一对应。
· VSI-Interface(VSI的虚拟三层接口):作为VXLAN内虚拟机的网关,用于处理跨VXLAN网络的报文转发。一个VXLAN网络对应一个VSI-Interface。
VNI( Virtual Network Identifier,虚拟网络标识)是在虚拟化网络中使用的一种技术。VNI主要用于实现网络虚拟化中的逻辑隔离,通过对数据包的标记来将数据包从物理网络中区分出来,从而实现虚拟化网络中多个租户之间的隔离。
在虚拟化网络中,当多个虚拟机(VM)在同一物理服务器上运行时,它们需要访问同一虚拟网络。VNI使得虚拟机可以在逻辑上隔离,相互隔离并不会影响其他虚拟机或物理网络的工作。
VNI一般通过在网络数据包头中添加标签来实现。标签可以指定特定的VNI值,同时也可以包括其他信息,例如源和目标MAC地址、IP地址、虚拟局域网标识(VLAN)等。
VNI通常与Overlay网络和网络虚拟化技术一起使用,例如VXLAN(Virtual Extensible LAN)和NVGRE(Network Virtualization using Generic Routing Encapsulation)等,这些技术都可以脱离底层物理网络构建逻辑网络,提高网络的可扩展性和灵活性。
总之,VNI是在虚拟化网络中实现逻辑隔离的一个关键技术,它通过对数据包进行标记,使得虚拟机可以在逻辑上隔离,从而提高了网络的可管理性、可扩展性和安全性。
VRF(Virtual Routing and Forwarding)是一种在网络设备上实现虚拟化路由和转发的技术。VRF 技术可以把同一物理网络拆分成多个逻辑上独立的虚拟路由和转发表,不同 VRF 之间相互隔离,实现彼此独立的虚拟网络。
在网络中,VRF 技术可以实现以下几个方面的功能:
· 逻辑隔离:通过VRF技术,可以将网络拆分为多个逻辑上独立的虚拟网络,不同的虚拟网络之间相互隔离,实现不同的用户、应用或业务之间的独立操作。每个VRF 之间相互隔离,可以有独立的路由协议、路由表、转发表和转发规则。
· 路由隔离:通过在每个 VRF 中独立配置路由协议和路由表,可以使得每个 VRF 只考虑其内部的路由和网络,避免了不同VRF之间的路由冲突和干扰,同时也增加了网络的安全性和稳定性。
· 灵活性与可扩展性:VRF技术为用户提供了更加灵活、高效的网络管理方式。通过VRF技术,用户可以随时根据业务需求动态创建、删除、调整和扩展虚拟网络,满足了网络业务变化的需求。同时,VRF技术也可以帮助用户降低网络规模,提高网络的可管理性和可维护性。
VRF 技术在企业网络、数据中心网络、云计算网络等中得到了广泛应用,是实现精细化网络管理的重要技术手段。
VTEP (Virtual Tunnel Endpoint) 是在网络虚拟化环境中使用的一种技术,主要用于在不同物理或虚拟数据中心之间创建逻辑隧道,将虚拟网络的流量传输到其他数据中心中。VTEP 技术可以帮助企业实现多个地理位置的数据中心之间的互联,同时保证数据传输的安全性和高效性。
VTEP 技术一般使用 Overlay 网络来实现。当一个虚拟机从一个数据中心中的一个物理主机迁移到另一个数据中心中的一个物理主机时,通常会发生逻辑网络的变化。在这种情况下,VTEP 技术将负责解决逻辑网络的变化和数据包的路由。当一个数据包尝试离开一个 VTEP 时,会打上特殊的标记来表示这个 VTEP,然后被传输到相应的目标网段中。
VTEP 技术还可以将多个节点上的虚拟网络有效地组合在一起,以创建一个逻辑上单一的虚拟网络,这对于企业来说是非常重要的。这个虚拟网络可以跨物理网络和数据中心进行扩展,并且可以根据需要进行配置和重配。
总之,VTEP 技术是网络虚拟化中的一种重要技术,可以实现不同物理或虚拟数据中心之间的安全和高效的数据传输。VTEP 技术的应用可以帮助企业更好地管理和扩展虚拟化网络,提高网络可靠性和灵活性。
BGP(Border Gateway Protocol)是一个广域网路由协议,用于在不同自治系统(AS)之间交换路由信息,是 Internet 中使用的一个重要的路由协议之一。BGP 协议的主要作用是选择最短路径并进行广告和传播路由信息,使得互联网中的不同自治系统之间可以相互通信和交换数据。
BGP 协议具有以下几个特点:
· BGP是一种自治系统之间互联的路由协议,可以将路由信息从一个AS传输到另一个AS中,使得不同AS之间可以互相通信和交流。
· BGP 协议是一种路径向量协议,允许网络管理员比较不同路径之间的属性,例如:AS路径长度、不同自治系统的开销等,并选择最短路径作为最佳路由。
· BGP协议具有分布式、可扩展的特点,每个 AS 都可以根据自己的需要配置和管理BGP路由表,使得协议具有很好的灵活性和可扩展性。
· BGP协议可以支持多种路由策略,根据不同策略和需求,可以实现路由的控制和管理,例如:路由过滤、路由汇总、路由聚合等。
BGP协议在互联网中得到广泛应用,尤其是在广域互联网中,很多大型企业、ISP(Internet Service Provider)和运营商都使用 BGP 协议来实现自治系统之间的路由信息交换。BGP 协议的广泛应用使得不同自治系统之间可以高效地通信和交换数据,同时为网络的安全和稳定性提供了支持。
BGP对等体是指在BGP协议运行中,在同一层次(例如两个自治系统之间)之间相互交换路由信息的网络设备。一般来说,在两个自治系统之间应该至少有两个 BGP 对等体,以确保路由信息的冗余和高可用性,避免单点故障造成的影响。
在BGP协议中,不同的BGP对等体可以扮演不同的角色,主要包括以下三类:
· EBGP (Exterior BGP):在不同自治系统之间交换路由信息的 BGP 对等体称为 EBGP 对等体。EBGP 对等体之间通常需要交换路由信息、路由策略信息以及 AS 路径信息的修改等,以达到自治系统之间的路由信息交换的目的。
· IBGP (Interior BGP):在同一自治系统内部交换路由信息的 BGP 对等体称为 IBGP 对等体。IBGP 对等体之间主要交换 AS 路径信息,以确保在自治系统内部的路由选择正确和稳定。
· RR(Route Reflector):当BGP对等体数量较多时,可以使用路由反射器(RR)来减少对等体之间的直接互连。RR 对等体可以将一个或多个 BGP 对等体作为客户端,并把来自客户端的路由信息扩散给其他客户端,以降低 AS 之间的相互连接个数,提高互联网络的可扩展性。
总之,BGP对等体是BGP协议中互相交换路由信息的网络设备,通过交换路由信息和路由策略来实现自治系统之间的互联和路由选择。理解和合理部署BGP对等体对于构建高效、高可用的自治系统和广域互联网是非常重要的。
AS(Autonomous System,自治系统)是指在互联网范围内被分配了唯一的ASN(Autonomous System Number,自治系统号码),并在其内部采用一致的路由协议的一组网络。AS可以视为一个逻辑上的网络单元,其内部节点可直接相互通信,而对外则通过 BGP(Border Gateway Protocol,边界网关协议)与其他AS在互联网中进行通信。AS 可以是一个ISP(Internet Service Provider,互联网服务提供商)、一个公司、一个政府机构等。
AS的主要特点:
· 拥有唯一的ASN:互联网号码分配机构(IANA)分配AS唯一的ASN,用于通过BGP协议在互联网中进行路由信息交换。
· 使用一致的路由协议:自治系统内部往往采用同一种路由协议进行路由交换,以保证自治系统的内部稳定可靠性。
· 有独立的路由选择能力:AS拥有独立的路由选择能力,可以根据自身的网络拓扑结构、运营策略和成本等进行路由选择。
· 与其他AS通过BGP协议进行互联:如果AS需要与其他AS进行互联,则可以通过BGP协议实现,通过交换路由信息来实现互联。
AS作为互联网中最重要的网络构造单元之一,对于构建高效、稳定的互联网结构至关重要。AS的存在可以通过多种方式支持数据包的路由选择和管理,例如路由过滤、路由聚合、路由汇总以及多重出口等功能,为网络设计和运营提供了更大的灵活性和可选性。
路由环路指的是在路由选择和交换过程中,由于错误的路由配置或者路由反馈信息过程中的问题,导致数据包在两个或多个路由器之间反复循环转发,无法到达其目的地,最终被丢弃或者耗尽所有资源。路由环路是一个典型的网络故障,会导致网络性能的降低、延迟和不可用等问题。
通常情况下,路由环路的产生主要是因为路由器之间的路由信息选择出现问题,例如出现双向互联或互联路由器上的重复路由等。当路由器收到一个数据包后,它会对源地址和目的地址进行匹配,然后根据自己的路由表和路由策略决定应该将数据包转发到哪一个出接口。如果路由器选择了错误的出接口,或者由于路由器之间的路由信息交换出现问题,造成数据包通过不同的路径反复循环转发,就会形成路由环路。
为了避免路由环路的产生,可以采用一些方法和措施来进行优化和改进,例如:
· 如有必要,可以在路由器之间添加一些设备来监测和控制路由信息的交换,例如路由反射器(RR)、路由集群(Route Cluster)等。
· 在设计网络结构时,需要合理规划路由器之间的连接和路由选择,避免出现双向互联或重复路由等问题。
· 定期对网络的路由信息进行检查和维护,及时发现并纠正出现的问题,避免路由信息抖动等问题的产生。
· 对于一些关键节点或者重要的数据流,可以采用隧道技术等手段,将数据流从直接层级的路由器中绕过,避免因路由环路导致服务中断的问题。
总之,路由环路是一个很常见的网络问题,需要关注和处理。通过采用合理的网络设计和维护,规范路由协议和路由策略的设置,可以有效避免路由环路的产生,提高网络的性能和可靠性。
路由黑洞是指路由器中存在某些路由条目,它们无法路由到目的地址,这些路由条目的存在将导致通往该目的地址的数据包被丢弃或丢失。这种情况通常是由于路由器的配置问题、网络故障、路由策略错误等原因造成的,当出现路由黑洞时,一些网络中的主机可能会无法访问其他网络上的主机或服务,这会对网络的健康运行产生不良影响。为了避免路由黑洞的出现,需要及时排查和修复相关的网络问题,并对路由器进行正确的配置和管理。
PFC(Priority-based Flow Control,基于优先级的流量控制)功能是一种精细的流量控制机制,可以满足以太网流量传输的无丢包要求,通过以太网提供无损服务。
PFC功能基于802.1p优先级对报文进行流量控制。如下图所示,PFC允许在一条以太网链路上创建8个虚拟通道,并为每条虚拟通道指定一个802.1p优先等级。在不影响其他通道流量转发的情况下,任意一条虚拟通道都可以单独暂停和重启。通过此机制可以实现同一接口上多种类型流量共存、多种流量共享链路。
图2-5 PFC工作原理
当本端发生拥塞时,设备会根据本端收到报文的802.1p优先级进行判别,从而确定对报文的处理方式:
· 如果收到报文的802.1p优先级开启了PFC功能,则接收该报文,并向对端发送PFC PAUSE帧,通知对端设备暂时停止发送该类报文。对端设备在接收到PFC PAUSE帧后,将暂时停止向本端发送该类报文。当拥塞仍然存在时,此过程将重复进行,直至拥塞解除。
· 如果收到报文的802.1p优先级未开启PFC功能,则直接将报文丢弃。
ECN(Explicit Congestion Notification,显式拥塞通知),它是一种TCP/IP协议中的一种拥塞控制机制。在网络传输数据时,当网络出现拥塞时,TCP协议会通过丢包机制来控制网络的拥塞程度。而ECN则是一种更加智能的拥塞控制方式,它通过在数据包头部标识出网络拥塞的状态,从而让终端设备和网络设备实时了解拥塞的情况,能够更快速地适应和调整传输速率,从而更加有效地控制网络拥塞。
ECN采用类似于标记的方式来进行拥塞通知,它会向TCP协议的数据包头中添加一个ECN位(ECN-Capable Transport),用来标识当前数据包采用了ECN机制。在网络设备对数据包进行路由时,会检查数据包头中的ECN位信息,如果数据包经过一段时间(如网络中的队列长度超过一定限制)后,网络设备发现拥塞程度加剧,就会对数据包进行标记,并将标记信息原样发送给下个网络设备,在数据包到达终端设备时,终端设备将接收到标记信息并降低传输速率,以达到更好的拥塞控制效果。
WRED(Weighted Random Early Detection)是一种拥塞管理算法,它可以在路由器上对传输的数据进行分类,并根据每一组数据包的优先级、重要性等进行处理和管理。WRED算法针对传输链路上的拥塞进行处理,可以在保证网络负载相对均衡的同时,避免出现网络拥塞或瘫痪的情况。
在实现网络拥塞控制时,WRED算法往往被用来调整网络流量的排队机制。具体来说,WRED算法可以根据数据流量的情况来动态调整缓存区大小,并根据不同数据包的优先级进行排队,保证网络数据传输的平稳流畅。
WRED算法可以针对不同的网络场景进行配置,以满足不同网络的需求。在配置WRED算法时,需要关注一些关键的参数,例如队列长度、比特率、流速控制等。通过调整这些参数,可以达到更好的拥塞控制效果,从而提高网络的可靠性和性能。
总之,WRED算法是一种基于拥塞管理的技术,可以帮助网络管理人员实现更好的网络负载均衡和控制。理解和掌握WRED算法的原理和实现,对于网络设计和优化是非常重要的。
Headroom(头空间)是指在传输数据时,为避免因数据包过大导致重组时出现出错或丢失,网络设备需要为数据包的头部预留一定的空间,这个预留的空间就称为“Headroom(头空间)”。在网络传输中,数据包头部不同于数据包的负载,通常包含包头和IP首部、TCP/UDP首部等网络协议中的附加信息。由于不同的网络协议需要头部的长度是不同的,因此,在设计网络设备时需要为不同的网络协议预留不同大小的Header Room。
Headroom 的大小通常由网络设备的硬件设计或软件设计决定,可以看做是设备的性能指标之一。适当预留 Headroom 有助于提高网络设备的可靠性和性能,从而保障网络传输的稳定和高效。头空间可能会因为某种原因被削减或耗尽,导致传输中的问题,因此,Headroom 还经常用于描述在当前网络状态下,网络设备还能处理的最大数据包大小。
表项资源是指网络设备中用于存储和管理路由、转发、ACL等数据的硬件或软件资源,这些数据通常是由网络管理员在配置网络设备时设置的。在网络设备上,路由表、转发表和ACL表等数据都需要使用表项资源进行存储和管理。这些表项资源的大小和数量严重影响了网络设备的性能和功能,因此,表项资源也是评估网络设备性能的重要指标之一。
表项资源通常包括了内存单元和处理器逻辑单元等硬件资源,同时也包括了软件指针和寄存器等软件资源。为了提高网络设备的性能,表项资源需要进行有效的利用和管理,如采用数据结构优化、压缩算法和多级索引等技术进行优化。网络管理员需了解网络设备所支持的表项数量和大小的限制,以及在网络运行过程中的消耗情况,以及时进行监控和调整,避免网络出现表项资源耗尽的情况,从而保证网络正常运行。
CRC(Cyclic Redundancy Check,循环冗余校验),是数据通信领域中常用的差错检测技术。它通过计算数据流中所有数据的二进制值的多项式函数余数来判断数据是否传输错误,从而保证数据的完整性和可靠性。
在数据传输过程中,如果发生了数据错误,则接收端计算出的CRC值与数据发送端计算出的CRC值不相等,接收端就会向发送端请求重传数据,以保证数据传输正确。一个好的CRC算法可以有效地检测传输过程中发生的小错误,同时也能防止数据传输中网络中的不良节点对数据进行篡改。
常见的网络协议,如Ethernet, H.264, 以及 USB等,都使用CRC验证技术来保证数据的完整性和可靠性。
AI-ECN是一项拥塞控制技术,采用人工智能算法来提高ECN机制的性能和效果。与传统ECN拥塞控制技术相比,AI-ECN技术增加了一些智能算法,能够更加准确地判断网络的拥塞情况,从而更加精准的进行拥塞控制。AI-ECN技术可以通过网络设备对网络流量分析的方式,实时地对网络拥塞程度进行分类和识别,使网络设备能够更快速和准确地将网络拥塞程度反馈给终端设备,避免了传统ECN在复杂网络环境下失灵的问题。
在实际应用中,AI-ECN技术可以减少网络延迟、提高传输速率并提高网络的可靠性,从而保证网络运行的高效和稳定。AI-ECN目前已经在新华三的一些高端路由器上进行了实现和应用。
RoCE(RDMA over Converged Ethernet)是一种基于以太网的远程直接内存访问(RDMA)技术。 RDMA是一种另类的数据传输方式,它允许应用程序直接处理访问远程内存资源而无需通过主机的CPU和操作系统内核进行传输处理,从而极大地提高了数据传输的效率和性能。RoCE技术将RDMA技术集成到以太网中,使数据中心网络能够更好地支持高性能计算和大规模数据处理等应用场景。
RoCE通过将RDMA功能与Ethernet交换技术相结合,从而使得RDMA技术也能通过现有的基于以太网的网络基础设施,如交换机和路由器进行数据传输和管理。它通过引入网络的基础服务,例如可信性传输和错误恢复,从而提供一个高可靠、高性能的网络传输框架。
RoCE技术的优势在于它可以在现有的以太网网络基础设施上提供和支持RDMA协议栈,同时也支持Ethernet和IP熟悉的管理和路由协议。这种技术极大地降低了网络升级和部署的难度和成本,为高性能计算和数据中心网络提供了一种高效和可扩展的解决方案。
TCB(Transient Capture Buffer,瞬时抓包缓存)是一种用来监控MMU(Memory Management Unit,缓存管理单元)队列丢包的技术。开启TCB功能后,系统将持续监控队列。当队列发生丢包时,系统将收集丢包时间、丢包原因、被丢弃报文的原始数据等信息,可通过gRPC方式上报网管或分析系统,方便网络管理员及时知晓设备上发生的丢包事件。
MOD(Mirror On Drop,丢包镜像)是一种专门用来监控报文在设备内部转发过程中丢包情况的技术。一旦监控到设备内部发生丢包,就会立即记录丢包发生的时间,丢包原因和丢弃报文的特征,并上报给网管或分析系统,以便管理员及时知晓设备内部发生的丢包情况。
随着网络的普及和新技术的涌现,网络规模日益增大,部署的复杂度逐步提升,用户对业务的质量要求也不断提高。为了满足用户需求,网络运维务必更加精细化、智能化。当今网络的运维面临着如下挑战:
· 超大规模:管理的设备数目众多,监控的信息数量非常庞大。
· 快速定位:在复杂的网络中,能够快速地定位故障,达到秒级、甚至亚秒级的故障定位速度。
· 精细监控:监控的数据类型更多,且监控粒度更细,以便完整、准确地反应网络状况,据此预估可能发生的故障,并为网络优化提供有力的数据依据。网络运维系统不仅需要监控接口上的流量统计信息、每条流上的丢包情况、CPU和内存占用情况,还需要监控每条流的时延抖动、每个报文在传输路径上的时延、每台设备上的缓冲区占用情况等。
传统的网络监控手段(SNMP、CLI、日志)已无法满足网络需求:
· SNMP和CLI主要采用“拉模式”获取数据,即发送请求来获取设备上的数据,限制了可以监控的网络设备数量,且无法快速获取数据。
· SNMP Trap和日志虽然采用“推模式”获取数据,即设备主动将数据上报给监控设备,但仅上报事件和告警,监控的数据内容极其有限,无法准确地反映网络状况。
Telemetry是一项监控设备性能和故障的远程数据采集技术。它采用“推模式”及时获取丰富的监控数据,可以实现网络故障的快速定位,从而解决上述网络运维问题。
Telemetry具有如下优势:
· 支持gRPC、INT、Telemetry Stream、ERSPAN等多种实现方式,满足用户的不同需求。
· 采集数据的精度高,且类型十分丰富,可以充分反映网络状况。
· 一次订阅,持续上报。相比传统网络监控技术的查询一次上报一次,Telemetry仅需配置一次,设备就可以持续上报数据,减轻了设备处理查询请求的压力。
· 故障定位更快速、精准。
如下图所示,Telemetry网络模型中包括如下组成部分:
· 网络设备:接受监控的设备。网络设备对指定的监控数据进行采样,并将采样数据通过gRPC(Google Remote Procedure Call,Google远程过程调用)、INT(In-band Telemetry,带内遥测)、Telemetry Stream、ERSPAN(Encapsulated Remote Switch Port Analyzer,封装远程端口镜像)等方式定时上送给采集器。
· 采集器:用于接收和保存网络设备上报的监控数据。
· 分析组件:用于分析采集器接收到的监控数据,对数据进行处理,并以图形化界面的形式将分析结果展现给用户。
· 控制组件:通过NETCONF等方式向设备下发配置,实现对网络设备的管理。控制组件可以根据分析组件提供的分析数据,为网络设备下发配置,对网络设备的转发行为进行调整;也可以控制网络设备对哪些数据进行采样和上报。
图2-6 Telemetry网络模型
根据数据上报方式的不同,Telemetry的实现方式包括:
· 基于gRPC的Telemetry
基于gRPC的Telemetry技术可以采集设备的接口流量统计、CPU、告警等数据,对采集到的数据进行Protocol Buffer编码后,实时上报给采集器进行接收和存储。
· 基于INT的Telemetry
INT由Barefoot、Arista、Dell、Intel和Vmware提出,是一种从设备上采集数据的网络监控技术。设备主动向采集器上送采集数据,提供实时、高速的数据采集功能,达到对网络设备的性能及网络运行情况进行监控的目的。
INT主要用来采集报文经过的路径和报文传输时延等数据平面信息。INT监控粒度为单个数据包,可以实现完整的网络状态实时监控。
· Telemetry Stream
Telemetry Stream是一种基于报文采样的网络流量监控技术,主要用于对流量传输路径和传输时延进行精确定位。
Telemetry Stream可以采集流量经过的每个设备的入接口及出接口信息,并打上相应的时间戳,可支持计算流量经过其中任意设备的传输时延。
· 基于ERSPAN的Telemetry
ERSPAN是一种端口报文镜像技术,它能够将端口上的报文镜像后,封装为协议号为0x88BE的GRE报文,并将其发送到远端监控设备。
用户可以根据实际需求定义待镜像的报文,例如镜像TCP三次握手报文以便监控TCP连接建立情况、镜像RDMA信令报文以便监控RDMA会话状态。
其中,gRPC上报的数据来自设备自身的业务模块,而INT、Telemetry Stream、ERSPAN上报的数据则来自设备收到的其他网络节点的报文。不同Telemetry方式的差异如下表所示。
表2-1 不同Telemetry方式的差异
特征\Telemetry方式 |
gRPC |
INT |
Telemetry Stream |
ERSPAN |
测量对象 |
XPath(采样路径) |
TCP/UDP报文 |
各种报文 |
各种报文 |
测量对象的选择规则 |
通过配置订阅,指定某些XPath进行采样 |
通过QoS策略或ACL进行报文过滤 |
通过ACL进行报文过滤 |
· 源端口、源VLAN和源CPU镜像 · 流镜像 |
报文采样方式 |
· 按周期采样数据并上报 · 实时上报事件类数据 |
按采样率采样一部分报文(报文复制),再插入INT头得到INT报文 |
按采样率采样一部分报文(报文复制) |
报文镜像 支持按比例采样 |
测量数据 |
设备的各种配置数据、运行状态数据(接口的状态信息和统计数据等) |
转发路径上每台设备的设备信息、接口信息、队列信息、时间戳信息和转发路径信息 |
设备ID、流量入接口及其时间戳、流量出接口及其时间戳 |
时间戳 |
时间戳精度 |
毫秒 |
纳秒 |
纳秒 |
纳秒 |
数据上送采集器的方式 |
各节点分别上报 根据gRPC协议栈将采样数据编码为订阅报文,发送给订阅关联的采集器 |
尾节点上报 INT报文封装在UDP报文中,查IP转发表发送给采集器 |
各节点分别上报 向镜像报文添加Telemetry Stream填充头,并封装含有采集器地址信息的UDP头及二三层头,再添加时间戳,查IP转发表转发给采集器 |
各节点分别上报 为镜像报文添加ERSPANv2头或ERSPANv3头后,重新计算CRC,为报文添加GRE头和IPv4报文头,通过IP网络路由转发到数据监测设备 |
网络中可以同时部署多种Telemetry技术,实现全方位、多角度的网络监控;也可以根据实际需要仅部署所需的Telemetry技术,针对某一方面进行实时监控。
gRPC、INT、ERSPAN将采集到的数据发送到数据采集器后,分析组件可以分析数据并以图形化界面展现出来,以便管理员更加清晰地了解网络状态,快速定位网络故障。管理员还可以及时发现网络中潜在的问题,及时优化网络,以避免网络故障的发生。
采集器和分析组件可以是两个独立的设备,也可以是一个设备。
gRPC(Google Remote Procedure Call,Google远程过程调用)是Google发布的基于HTTP 2.0协议承载的高性能开源软件框架,提供了支持多种编程语言的、对网络设备进行配置和管理的方法。通信双方可以基于该软件框架进行二次开发。
gRPC协议栈分层如下表所示。
表2-2 gRPC协议栈分层模型
分层 |
说明 |
内容层 |
业务模块的数据 通信双方需要了解彼此的数据模型,才能正确交互信息 |
Protocol Buffers编码层 |
gRPC通过Protocol Buffers编码格式承载数据 |
gRPC层 |
远程过程调用,定义了远程过程调用的协议交互格式 |
HTTP 2.0层 |
gRPC承载在HTTP 2.0协议上 |
TCP层 |
TCP连接提供面向连接的、可靠的数据链路 |
如下图所示,gRPC网络采用客户端/服务器模型,使用HTTP 2.0协议传输报文。
图2-7 gRPC网络架构
gRPC网络的工作机制如下:
(1) 服务器通过监听指定服务端口来等待客户端的连接请求。
(2) 用户通过执行客户端程序登录到服务器。
(3) 客户端调用.proto文件提供的gRPC方法发送请求消息。
(4) 服务器回复应答消息。
H3C设备支持作为gRPC服务器或者gRPC客户端。
proto文件使用protocol buffers语言编写。protocol buffers是Google开发的数据描述语言,用于自定义数据结构并生成基于各种语言的代码,在序列化和结构化数据方面比XML语言更简单、解析更快。
proto文件使用protocol buffers语言编写。protocol buffers是Google开发的数据描述语言,用于自定义数据结构并生成基于各种语言的代码,在序列化和结构化数据方面比XML语言更简单、解析更快。
在对实时性要求较高的网络中,需要能精准定位出哪台设备的哪个端口上转发报文最耗时。通过Telemetry Stream测量技术,可以获知流量经过的设备以及流量经过其入接口和出接口的时间,以此计算出流量经过某台设备或多台设备时的传输时延,从而有针对性地优化网络架构,降低网络延迟。
Telemetry Stream可监测的数据信息为:设备ID、流量入接口及其时间戳、流量出接口及其时间戳。其中,设备ID是配置Telemetry Stream功能时指定的Device ID,用于唯一标识报文传输路径上的设备。
Telemetry Stream技术的主要优点有:
· 配置简单。
· 管理员仅需对设备下发一次Telemetry Stream配置,设备就会持续采集数据并上报给采集器。
· 可通过ACL调整路径探测的报文范围。
· 可通过修改采样器,灵活调整采样精度。
对于Telemetry Stream报文格式,不同产品实现情况不同,请以实际情况为准。本节以S12500G-AF产品为例。
如图2-8所示,Telemetry Stream为采样的报文添加时间戳、Telemetry Stream填充头、UDP头、IP头、Ethernet头。其中时间戳、Telemetry Stream填充头的各字段含义如表2-3、表2-4所示。
图2-8 Telemetry Stream报文封装格式
字段 |
长度(单位为bit) |
说明 |
Time |
48 |
从PTP模块获取的时间,包含16bits秒位和32bits纳秒位 |
Reserved |
8 |
预留字段 |
Origin ID |
23 |
时间戳所在报文的源设备信息 Telemetry Stream的设备ID被拆分为2个16bits,分别存储在入接口时间戳和出接口时间戳的本字段的前16bits中 |
Rx_Tx |
1 |
方向标记,取值包括: · 0:代表Receiver,即入接口时间戳 · 1:代表Transmitter,即出接口时间戳 |
FCS |
32 |
帧校验序列(Frame Check Sequence) |
表2-4 Telemetry Stream填充头各字段的含义
字段 |
长度(单位为bit) |
说明 |
Version |
32 |
Telemetry Stream版本,目前固定为1 |
Src MID |
8 |
原始流量的源接口模块ID(Source Module ID) Src MID和Src Port组成原始流量入接口的唯一标识 |
Src Port |
8 |
原始流量的源端口号(Source Port) |
Dst MID |
8 |
原始流量的目的接口模块ID(Destination Module ID) Dst MID和Dst Port组成原始流量出接口的唯一标识 |
Dst Port |
8 |
原始流量的目的端口号(Destination Port) |
Flags |
9 |
标志位(1表示是,0表示否),比特位从左到右依次代表: · Source_sample(1bit):是否为基于Ingress port的Telemetry Stream采样 · Dest_sample(1bit):固定为0 · Flex_sample(1bit):是否为基于流的Telemetry Stream采样 · Mcast_sample(1bit):是否为组播报文采样 · Discarded(1bit):采样报文送往本地CPU处理时是否被丢弃 · Truncated(1bit):固定为0(不剪裁)。目前所有采样都复制原报文进行UDP封装 · Dest_port_encoding(3bits): ¡ 000:CPU之间通信的控制帧 ¡ 001:目的地址已解析的二层或三层单播报文 ¡ 010:组播报文、未知单播报文或未知组播报文,发往VLAN内所有端口 ¡ 011:二层组播报文,发往组播组的所有端口 ¡ 100:IP组播报文,发往组播组的所有端口 ¡ 101、110、111:预留值 |
Reserved |
7 |
预留字段 |
User metadata |
16 |
可定制的用户信息 |
Sequence number |
32 |
序列号 |
以图2-9中的Device B为例,Telemetry Stream工作机制如下:
(1) 所有参与测量的设备使用PTP达到纳秒级时间同步。
(2) 设备在入接口通过ACL筛选原始报文,对命中规则的报文,按设定的采样率抽取部分报文进行复制。
(3) 设备为复制的报文封装如下报文头:
¡ Telemetry Stream填充头(记录原始报文的入端口和出端口)。
¡ UDP头和二三层头(记录采集器的端口号和MAC/IP地址)。
¡ 入接口时间戳(Rx Timestamp)。
¡ 出接口时间戳(Tx Timestamp)。
(4) 设备将采样报文发送给采集器。采样报文的入接口时间戳和出接口时间戳中包含了报文所属的设备信息(设备ID)。
图2-9 Telemetry Stream工作机制示意图
多个节点均各自向采集器上送采集信息,采集器就可以根据收集到的采集信息进行路径和时延计算:
· 流量经过指定设备的传输时延 = 该设备的出接口时间戳 – 该设备的入接口时间戳。
· 流量经过多台设备的传输时延 = 出接口所在设备的出接口时间戳 – 入接口所在设备的入接口时间戳。
INT(In-band Telemetry,带内遥测)是一项从设备上采集数据的网络监控技术。配置了INT功能的设备会主动向采集器上送采集数据,提供实时、高速的数据采集功能,采集器分析收到的采集数据,以达到对网络设备的性能及网络运行情况进行监控的目的。
INT网络由开启INT功能的设备组成,该网络中包含一个首节点、若干中间节点和一个尾节点设备。
图2-10 INT网络示意图
INT功能通过镜像原始报文、插入INT报文头和采集信息的方式生成INT报文。INT报文头和采集信息位于原始IP头内部,所以INT报文与原始报文含有相同的IP头,走相同的转发链路,进而对路径上各节点进行信息采集。
目前设备支持基于TCP报文、UDP报文和VXLAN报文生成INT报文。不同报文中INT报文头所处位置如下图所示。INT报文头中高64位就是INT标记,固定填充0xaaaaaaaabbbbbbbb。
图2-11 INT报文格式
当前INT功能支持普通型INT和灵活型INT。普通型INT和灵活型INT在信息采集方面没有差异,但运行机制和配置逻辑稍有不同。
· 普通型INT网络中:每个节点的设备需要在入接口配置设备在INT网络中的角色为Ingress、Transit或Egress。首节点通过QoS策略定义数据流,中间节点和尾节点自动识别INT报文并对报文进行相应的INT处理。因此,流量转发路径的每个入接口上都只支持对首节点定义的数据流进行INT处理。
· 灵活型INT网络中:不需要配置设备在INT网络中的角色,每个节点的设备都可以通过ACL定义数据流(对于同一条流,首节点匹配原始报文,中间节点和尾节点匹配INT报文),并针对该数据流配置相应的INT处理动作。设备支持在同一接口上通过ACL匹配多条数据流并针对不同的数据流分别配置INT处理动作。
普通型INT的配置较为简洁,建议优先采用普通型INT。仅当INT节点需要在同一接口对多条数据流进行INT处理的时候采用灵活型INT。
如图2-12所示,普通型INT中各节点实现功能如下:
· 首节点
流量入接口上通过QoS策略将命中规则的报文镜像、采样至设备内部的INT处理器。处理器对其添加INT报文头,然后将INT报文环回至入接口。入接口根据INT标记自动识别INT报文,添加采集信息,查表转发。出接口添加采集信息,并发送给中间节点。
· 中间节点
流量入接口根据INT标记自动识别INT报文,添加采集信息,查表转发。出接口添加采集信息,发送给尾节点。
· 尾节点
流量入接口根据INT标记自动识别INT报文,添加采集信息,上送至INT处理器加封装后,查表转发至出接口,发送给采集器。
如图2-12所示,以同一条流的INT处理为例,灵活型INT中各节点实现功能如下:
· 首节点
入接口通过ACL对原始报文进行筛选,命中规则的报文被镜像、采样至设备内部的INT处理器。处理器为其添加INT报文头,然后将INT报文环回至入接口。入接口通过ACL筛选出本机环回INT报文,对其添加采集信息,查表转发。出接口添加采集信息,并发送给中间节点。
· 中间节点
入接口通过ACL筛选出INT报文,为命中规则的报文添加采集信息后,查表转发。出接口添加采集信息,发送给尾节点。
· 尾节点
入接口通过ACL筛选出INT报文,命中规则的报文被镜像至INT处理器,处理器对其进行封装,然后查表转发至出接口,发送给采集器。
图2-12 INT功能组网与处理机制示意图
ERSPAN(Encapsulated Remote Switch Port Analyzer,封装远程端口镜像)是一种三层远程镜像技术,通过复制指定端口、VLAN或CPU的报文,并通过GRE隧道将复制的报文发送到远程数据监测设备,使用户可以利用数据监测设备分析这些报文(称为镜像报文),以进行网络监控和故障排除。
ERSPAN支持端口镜像和流镜像两种实现方式。
ERSPANv2将镜像报文封装为协议号为0x88BE的GRE报文,如图2-13所示。
图2-13 ERSPANv2报文封装格式
ERSPANv2为镜像报文添加ERSPANv2头后,重新计算CRC,并为报文添加GRE头和IPv4报文头。GRE头和ERSPANv2头中的关键字段含义为:
· GRE头:
¡ 标记位:S比特取值为1,表示可以通过序列号检查报文是否乱序;其余标记位取值为0。
¡ 版本号:取值为0。
¡ 协议类型:取值为0x88BE,表示GRE的承载协议为ERSPAN type II。
¡ 序列号:报文的序列号,每增加一个报文,序列号加1。
· ERSPANv2头:
¡ Ver:ERSPAN封装的版本,ERSPAN type II取值为1。
¡ VLAN:镜像报文的原始VLAN。
¡ CoS:镜像报文的原始CoS(Class of Service,服务等级)。
¡ En:ERSPAN流量源端口的数据帧封装类型。取值00表示不携带VLAN标签;01表示ISL封装;10表示802.1Q封装;11表示数据帧中携带VLAN标签。
¡ T:取值为1表示由于镜像报文超过接口的MTU,ERSPAN报文中封装的数据帧被进行了分片。
¡ Session ID:ERSPAN会话的标识,也称为ERSPAN ID。在同一个源和目的设备之间必须唯一。
¡ Reserverd:保留字段。
¡ Index:ERSPAN流量源端口和镜像方向的索引。
ERSPANv3相比于ERSPANv2,引入了一个更大、更灵活的复合报文头,满足日益复杂和多样化的网络监控场景(比如网络管理、入侵检测、性能和延迟分析等),这些场景中需要知道原始镜像帧的所有参数,包括那些不存在于原始镜像帧本身的内容。
ERSPANv3将镜像报文封装为协议号为0x22EB的GRE报文,如图2-14所示。
图2-14 ERSPANv3报文封装格式
ERSPANv3为镜像报文添加ERSPANv3头后,重新计算CRC,并为报文添加GRE头和IPv4报文头。GRE头和ERSPANv3头中的关键字段含义为:
· GRE头:
¡ 标记位:S比特取值为1,表示可以通过序列号检查报文是否乱序;其余标记位取值为0。
¡ 版本号:取值为0。
¡ 协议类型:取值为0x22EB,表示GRE的承载协议为ERSPAN type III。
¡ 序列号:报文的序列号,每增加一个报文,序列号加1。
· ERSPANv3头:
¡ Ver:ERSPAN封装的版本,ERSPAN type III取值为2。
¡ VLAN:镜像报文的原始VLAN。
¡ CoS:镜像报文的原始CoS(Class of Service,服务等级)。
¡ BSO:通过ERSPAN承载的数据帧的负载完整性。取值00表示完整的数据帧;11表示不完整的数据帧;01表示短帧;10表示超大帧。
¡ Session ID:ERSPAN会话的标识,也称为ERSPAN ID。在同一个源和目的设备之间必须唯一。
¡ Timestamp:时间戳,从与系统时间同步的硬件时钟中导出,这32bit的字段至少支持一个时间戳粒度为100微秒。有关时间戳粒度的详细说明,请参考Gra字段。
¡ SGT:镜像报文的安全组标记。通过SGT可以用来标注镜像报文来源的身份信息。
¡ P:协议标记,表示ERSPAN承载的是否为以太网协议帧。取值1表示是以太网协议帧,取值0表示不是以太网协议帧。
¡ FT:镜像报文是以太网帧还是IP包。取值0表示以太网帧,取值2表示IP包。
¡ HW ID:系统内ERSPAN引擎的唯一标识符。
¡ D:镜像报文的方向。取值0表示入方向镜像报文,取值1表示出方向镜像报文。
¡ Gra:定义时间戳的粒度。取值00b表示100微秒粒度;01b表示100纳秒粒度;10b表示IEEE 1588粒度;11b表示用户自定义的时间戳粒度。
¡ O:表示是否携带平台特定子头部,取值1表示携带;取值0表示未携带。
¡ Platf ID:平台特定子头部ID,不同的ID取值对应不同的平台特定子头部封装格式。目前只支持取值为0x5。
¡ Platform Specific SubHeader:平台特定子头部,具体格式如图2-15所示。
- Switch ID:标识镜像报文的来源设备。
- Port ID/Index:标识源设备上的目的端口。
- Timestamp:时间戳。在此封装格式下,ERSPANv3头中的Timestamp代表IEEE 1588纳秒、Gra的取值为10b,该Timestamp代表IEEE 1588秒。
图2-15 Platform Specific SubHeader格式
端口镜像方式的ERSPAN网络由以下几部分构成:
· 镜像源:被监控的对象,可以是端口、VLAN或CPU,分别称为源端口、源VLAN和源CPU。经镜像源收发的报文会被复制一份,并发送到数据监测设备,以便对镜像报文进行监控和分析。
· 源设备:镜像源所在的设备。
· 镜像目的:镜像报文所要到达的目的地,即与数据监测设备相连的端口,该端口称为目的端口。目的端口会将镜像报文转发给与之相连的数据监测设备。
· 目的设备:目的端口所在的设备称为目的设备。
· 数据监测设备:接收镜像报文、对镜像报文进行分析处理的设备。
端口镜像方式的ERSPAN分为Tunnel和配置封装参数两种方式。
Tunnel方式三层远程端口镜像使用本地镜像组的方式实现,即在源设备和目的设备上分别创建各自的本地镜像组,每个本地镜像组也拥有各自的镜像源和目的端口。不同的是:
· 在源设备上:
¡ 源端口为待监控的端口。
¡ 源VLAN为待监控的端口所在的VLAN。
¡ 源CPU为待监控的端口所在的CPU。
¡ 目的端口为用于传输镜像报文的Tunnel接口。
· 在目的设备上:
¡ 源端口为Tunnel接口对应的物理端口。
¡ 源VLAN为Tunnel接口对应物理端口所在的VLAN。
¡ 目的端口为连接数据监测设备的端口。
Tunnel方式三层远程端口镜像报文的转发过程如图2-16所示。
(1) 源设备将镜像源的入方向(收到的报文)、出方向(发出的报文)或双向(收到和发出的报文)报文复制一份给Tunnel接口(即目的端口)。
(2) 报文经由GRE隧道转发至目的设备端的Tunnel接口。
(3) 目的设备从该Tunnel接口对应的物理接口(即源端口)收到镜像报文后,将其复制一份给目的端口。
(4) 由目的设备上的目的端口将镜像报文转发到数据监测设备。
图2-16 Tunnel方式三层远程端口镜像示意图
配置封装参数方式三层远程端口镜像仅需在源设备上指定镜像源和目的端口。同时所有设备上需配置单播路由协议,并确保设备之间的三层网络畅通。
在源设备上先创建一个本地镜像组,然后为该镜像组配置源端口和目的端口。指定目的端口时,指定镜像报文封装的目的IP地址为监测设备的地址,源IP地址为目的端口的IP地址。
如图2-17所示,配置封装参数方式三层远程端口镜像报文的转发过程为:
(1) 源设备将镜像源的入方向(收到的报文)、出方向(发出的报文)或双向(收到和发出的报文)报文复制一份。
(2) 源设备为复制的报文添加ERSPAN封装,封装的源IP地址为目的端口的IP地址,目的IP地址为监测设备的IP地址。
(3) 封装后的报文通过IP网络路由转发到监测设备。
(4) 监测设备对报文进行解封装,并分析镜像报文的内容。
由于镜像到监测设备的报文为封装后的报文,因此监测设备必须支持报文解封装。
流镜像是指将指定报文复制到指定目的地,以便于对报文进行分析和监控。
流镜像通过QoS实现,设备先通过流分类匹配待镜像的报文,再通过流行为将符合条件的报文镜像至指定目的地。该方式可以灵活配置报文的匹配条件,从而对报文进行精细区分,并将区分后的报文镜像到目的地。
当流镜像的目的地为接口时,可以通过流镜像实现ERSPAN。
流镜像ERSPAN有如下几种实现方式:
· Loopback方式。
· 配置封装参数方式。
· 监控组方式。
如图2-18所示,Loopback方式流镜像ERSPAN的实现方式为:
(1) 在源设备上配置QoS策略并将策略下发到源接口上,流分类匹配指定特征的报文,流行为配置流镜像到接口Port B并指定loopback参数。
(2) 在源设备上配置QoS策略并将策略下发到Port B,流分类匹配镜像报文,流行为将报文重定向到Tunnel接口。
(3) 目的设备将从Tunnel接口收到的镜像报文解封装,然后根据报文的目的IP地址(即原始报文的目的IP地址)转发报文。因此,目的设备上需要存在到达该目的地址的路由/ARP。
图2-18 Loopback方式流镜像ERSPAN示意图
在源设备上配置QoS策略,流分类匹配指定特征的报文,流行为配置流镜像到接口。配置流镜像到接口时,有两种方式。
· 指定出接口方式:同时指定出接口和封装参数,设备给镜像报文加封装后从指定接口发出。
· 路由出接口方式:不指定出接口,只指定封装参数。设备给镜像报文加封装后,根据封装报文的源IP地址和目的IP地址查表转发,路由出接口即为镜像报文的目的端口。
采用这种方式时,可以通过路由协议的负载分担实现将镜像报文转发到多个目的端口。
如图2-19所示,配置封装参数方式流镜像ERSPAN的实现方式为:
(1) 源设备将匹配流分类的报文复制一份。
(2) 设备为报文添加ERSPAN封装后从指定接口发出或者根据封装报文的源IP地址和目的IP查表转发。
(3) 封装后的报文通过IP网络路由转发到监测设备。
(4) 监测设备对报文进行解封装,并分析镜像报文的内容。
通过本方式镜像到监测设备的报文为封装后的报文,因此监测设备必须支持解封装。
如图2-20所示,监控组方式流镜像到三层远程设备的实现方式为:
(1) 在源设备上配置监控组,为监控组添加成员端口时配置封装参数。
(2) 在源设备上配置QoS策略,流分类匹配指定特征的报文,流行为配置镜像到监控组。
(3) 设备将符合条件的报文复制一份到监控组后,监控组成员端口为报文添加ERSPAN封装后从指定接口发出或者根据封装报文的源IP地址和目的IP查表转发。
(4) 封装后的报文通过IP网络路由转发到监测设备。
(5) 监测设备对报文进行解封装,并分析镜像报文的内容。
通过本方式镜像到监测设备的报文为封装后的报文,因此监测设备必须支持解封装。
WebSocket是一种在单个TCP连接上进行双向通信的协议。WebSocket协议使得浏览器和服务器可以进行实时通信,支持双向数据传输。传统的HTTP协议是一种单向的请求-响应协议,即客户端请求服务端,服务端返回响应,通信结束。而WebSocket在建立连接后,客户端和服务端可以随时在同一个连接上发送和接收数据,而无需每次建立请求。
WebSocket协议采用标准的HTTP端口(端口号为80)或HTTPS端口(端口号为443)进行通讯,具有保密性、可靠性和灵活性。由于不同于HTTP的轮询式工作方式,WebSocket不会给服务器造成过多的负担。在实时通讯、游戏、物联网通讯等领域中,WebSocket已经成为了一种非常重要的通讯协议。
端口微突发(Port Microburst)指网络设备中的一个端口在短时间内接收到大量的上行数据流,超出了该端口的缓存空间的容量,从而导致数据包在缓存区中排队等待被发送,导致延迟增加和性能下降。由于微突发一般只在瞬间发生,因此很难被网络管理员检测到和识别。
端口微突发往往发生在高速网络交换机或路由器上的负载均衡算法发生错误、网络峰值流量超过端口容量时等情况下。为了应对端口微突发,网络管理员通常采用增加端口缓存、设置输出仪表盘和采用流控技术等方法来缓解该问题。此外,在设计网络架构时,合理规划网络带宽和流量控制,可有效地降低出现端口微突发问题的概率,从而保障网络性能稳定和高效。
IPMC( Internet Protocol Multicast,Internet协议组播)是一种使用Internet协议来实现组播传输的技术。通过IPMC技术,网络管理员可以将单个流量发送到多个终端设备,以满足多人协同工作、网络视频直播、应用程序部署、云计算和大数据分析等需求。
IPMC技术是一种可扩展的通信方式,它可以通过加入和离开组播组来建立和撤销多个多播组,从而在单个会话中达到广播和单播的效果。IPMC技术支持广泛的协议和技术,例如IGMP、PIM和MST等协议,以支持各种类型的网络和应用程序。
通过采用IPMC技术,网络管理员可以降低网络负载和传输成本,提高网络性能和效率,同时也可以保证网络可扩展性和稳定性。IPMC技术在多人协作、网络视频直播、高性能计算和数据中心网络等应用场景中被广泛采用和推广。
MAD(Mobile Application Development,移动应用开发)是一种软件开发过程,用于开发适用于移动设备的应用程序,例如智能手机、平板电脑、智能手表和其他便携式设备。该技术涵盖了从需求分析和原型设计到应用程序开发、测试、部署和维护的全过程。
移动设备在用户生活和工作中占据越来越重要的地位,因此MAD技术已经成为了一个热点领域。移动应用程序的开发需要特殊的技能和知识,包括各种移动操作系统和应用程序框架的技术,例如iOS、Android、React Native、Ionic等。开发者需要对移动设备的特性和用户行为有深入的理解,能够开发出用户友好的应用程序,同时还需要注意数据加密和安全性等方面的保护。
MAD技术可以提供从简单的应用程序到复杂的企业级应用程序的全套开发服务,包括移动应用程序设计、开发、测试、部署和维护。通过采用MAD技术,企业和开发者可以轻松地创建并推广适用于移动设备的应用程序,为用户提供全新的移动应用体验。
动态基线(Dynamic Baseline)是指根据系统的实际状态和行为动态调整基线,以反映系统的正常行为与违规行为的差异。基线是描述系统正常状态的一个集合,如果系统的性能或功能发生变化,那么系统的基线也会随之发生变化。动态基线是根据系统的实际情况,在不断地收集和分析数据,以自适应的方式调整系统基线。
动态基线技术可以帮助管理员快速识别潜在的安全问题,并防止网络攻击或其他安全问题的发生。在网络安全中,常常使用基线来表示系统或网络的正常状态,并使用基线监测工具来检测系统或网络中的异常或不正常活动。但是,一些恶意活动可能会避开这些管理措施,因此,使用动态基线技术来处理和调整基线,可以更好地保护系统和数据。
动态基线技术必须基于实时的数据和深入的数据分析来不断更新系统的基线,并根据不断变化的数据流和系统行为动态地调整和优化基线,以适应系统变化的要求。通过动态基线技术,网络管理员可以识别和监测潜在的安全威胁,从而不断提高系统的可靠性和安全性。
NHP(Network Layer Protocol,网络层协议),也叫做网络层选项(Network Layer Option)。它是一种用于在网络层传输中注入额外信息的协议。通常,NHP被用于在传输过程中添加一些与数据包相关的附加信息,例如安全性验证信息、路由选择信息、质量服务信息、错误检测和纠错信息等。
NHP协议的使用可以极大地拓展其运用场景和功能,比如在IPv6协议中,NHP协议被广泛使用,用于在网络层中添加路由信息、策略信息、质量服务信息等。在实际应用中,NHP协议通常和其他协议结合使用,例如IPsec协议可以使用NHP协议注入安全认证信息,MPLS协议使用NHP协议注入路由和标记信息等。
NHP协议的注入方法一般包括两种:
· 通过修改IP头中的选项字段来添加额外信息。
· 在原始数据包上叠加一个新的数据包来进行注入。在进行NHP注入时,需要注意注入的信息必须要符合注入的标准,例如注入的数据不能影响数据包的合法性,不能阻止数据包的正常传输等。
总之,NHP协议是一种用于在网络层传输中注入额外信息的协议,它可以在传输过程中添加一些与数据包相关的附加信息,从而扩展协议的功能和使用场景。在实际应用中,NHP协议通常和其他协议结合使用,以满足不同应用需求。
DRAM(Dynamic Random Access Memory,动态随机存储器)是一种常见的计算机内存芯片。与SRAM(静态随机存储器)不同,DRAM需要不断地刷新以保持存储的数据,因此称之为动态存储器。
DRAM的优势在于制造成本低、速度快,可以存储大量的数据,因此被广泛用于电脑内存和GPU显存等领域。DRAM的工作原理是利用电容器存储电荷来存储数据,每个电容器代表一个存储单元。当需要读取数据时,通过电容器中存储的电荷电压的高低来确定数据。
除了计算机和GPU等领域,DRAM还被广泛应用于其他领域,例如数字相机、移动设备、车载电子设备等。在实际使用中,DRAM也需要注意一些技术细节,例如由于动态存储的性质,需要定时刷新以保持数据的稳定性,并且需要注意功耗和散热等问题。
总之,DRAM是一种常见的计算机内存芯片,具有制造成本低、速度快、存储容量大等特点,被广泛应用于各种领域。对于了解计算机内存和存储技术的人士来说,掌握DRAM的基本原理和使用方法是非常重要的。
ONU(Optical Network Unit,光网络单元)是一种用于被动光纤接入网络(PON)系统中的网络设备。在光纤通信系统中,ONU作为终端节点,负责完成用户设备与运营商光纤网络的接口转换,完成信号的解调和光纤通信的物理层处理等功能。
ONU通常被部署在住户或企业用户端,在光纤到达用户处后通过光纤收发器接收光信号并转换为电信号,然后连接用户设备(例如计算机、电话、路由器等)进行数据传输。ONU的作用是使用户能够通过光纤网络进行高速宽带接入和数据传输,同时也实现了运营商对用户的账务管理和服务支持等功能。
在PON系统中,ONU通常由运营商提供,根据不同的网络部署方式和运营商的要求,ONU可以是外置式或者是内置式。外置式ONU通常采用桌面或者壁挂式设计,具有可视化安装和维护的特点,例如可更换的光模块和电源适配器等。内置式ONU则通常集成在用户设备中,例如路由器等。
总之,ONU是光网络单元的缩写,是一种在被动光纤接入网络系统中扮演终端节点的网络设备。ONU的作用是完成用户设备与光纤网络的接口转换和信号处理等功能,实现用户的高速宽带接入和数据传输。
UNI(User Network Interface,用户网络接口)是一种用于连接用户设备和宽带网络的接口标准。UNI通常用于传输多种类型的数据,包括音频、视频、互联网和电话信号等。
UNI的主要作用是定义连接用户设备和宽带网络之间的逻辑和物理接口。它规定了连接用户设备和网络设备的数据传输格式、协议、信令和安全性等方面的标准。同时,UNI也规定了连接用户设备和网络设备之间的管理和监控机制,以及对服务质量、网络性能和带宽等方面的限制和保证。
在家庭和企业网络中,常见的UNI接口包括以太网接口、电话接口、电视接口等。UNI接口的发展也始终与各种宽带接入技术紧密相关,例如DSL、光纤、电缆等。
总之,UNI是用户网络接口的缩写,是连接用户设备和宽带网络之间的接口标准。UNI规定了连接用户设备和网络设备之间的传输格式、协议、管理和监控机制等,是实现网络服务质量、安全性和性能保障的重要标准。
TCP SYN Flood(SYN洪水攻击)是一种常见的网络攻击方式,攻击者通过向服务器发送大量TCP SYN包来消耗服务器的资源,导致正常用户无法访问服务器。
在TCP协议中,客户端向服务器发送请求时,首先会发送一个SYN包,请求建立连接。服务器收到SYN包后,会回复一个SYN+ACK包作为确认,然后客户端再回复一个ACK包表示连接已建立。在SYN Flood攻击中,攻击者发送大量伪造的SYN包,占用服务器资源,使得服务器无法及时处理所有请求,从而导致服务不可用或缓慢的情况。
在具体的实施中,攻击者通常通过多个IP地址和端口同时发送SYN包,并在短时间内发送大量的请求,从而占用服务器的资源。此外,攻击者还可以选择发送特定的SYN包,例如带有不合法的TCP选项或超长的SYN包等,以进一步增加服务器的负担。
为了防范SYN Flood攻击,服务器和网络设备通常采取一系列措施,例如限制单个IP地址发送的连接数、开启SYN 防护、使用反向代理服务器等。此外,网络管理人员也可以通过深入了解攻击者的行为模式和攻击方式,及时采取应对措施,提高网络的安全性。
总之,TCP SYN Flood攻击是一种占用服务器资源的网络攻击方式,攻击者通过发送大量伪造的SYN包,导致服务器无法及时处理请求,从而使得正常用户无法访问服务器。网络管理人员可以采取一系列措施,来防范和应对SYN Flood攻击。
请参考《AD-DC 6.3 统一数字底盘及组件部署指导》。
分析组件中的多个功能模板均需要配置网络设备、网络资产、协议模板、设置协议等操作,具体配置步骤请参考《AD-DC 6.3 智能分析业务配置指导》基础网络配置章节。
若需要配置解析任务需要进入[分析选项>任务管理]页面,在“分析任务”区域找到需要启用的任务,单击“操作”区段的图标即可启用该任务。
图5-1 启用解析任务
若需要配置采集任务需要进入[分析选项>任务管理]页面,在“采集任务”区域找到需要启用的任务,单击“操作”区段的图标即可启用该任务。
图5-2 启用采集任务
数据中心分析组件提供了多种业务功能,本章节将介绍各业务的功能简介以及配置方式,可根据实际需求选择对应的功能进行配置。
网络健康度功能将分析组件采集的网络相关的各项指标数据按照设备、单板、芯片、接口、队列、光模块、链路(物理链路/隧道)等页签分类展示。同时支持对于各页签中的各对象的指标进行静态阈值和动态基线的参数设定来对对象指标进行实时超限告警并展示。目前以支持对设备、单板、芯片、AP、AC数据的相关指标的静态阈值和动态基线检测。
分析组件产品的容量管理特性主要功能是对网络设备资源使用情况进行监控,跟踪资源变更记录及波动趋势;并且能够实现对设备资源不足进行告警。对设备表项资源数据的监测,当某项表项资源上报的数据出现异常时能被AI算法监测到并在页面上直观的展示出来,并且平台生成对应的告警信息。具体包括网络异常、表项资源智能预测。
参考5 配置任务的操作步骤,启动DeviceResource解析任务、FlinkNetConf解析任务、健康度分析任务、IfKpiAnalysis解析任务、NodeKpiAnalysis解析任务、grpcAnalysis解析任务、BufferMonitor解析任务、SNMPTrap解析任务、设备控制平面连通性流处理任务。
(1) 进入[健康分析>网络分析>网络健康度]页面,查看网络健康度整体情况,包括健康度趋势、网络健康分类展示、以及网络设备列表。
图6-1 网络健康度
(2) 单击网络设备列表的中的设备名称,可以下钻到该设备的详情页面。详情页面中,展示了该设备的健康度趋势、连接拓扑、设备信息统计、流量转发丢包、缓存监控、端口指标监控等信息,以及趋势信息。
图6-2 连接拓扑
图6-3 信息统计
图6-4 流量转发丢包
图6-5 缓存监控
图6-6 端口指标监控
· 概览页面:主要展示不同类型的设备的健康情况,应用的健康情况,故障趋势图,查看故障统计情况,以设备、网络、协议、Overlay、业务、主机为分类来展示不同类型对应等级故障的数目,设备丢包数最多的五个设备和丢包数,设备时延最大的五个设备和时延大小。
· 拓扑页面:展示当前系统中所有网络设备(如交换机、路由器等)的逻辑连接关系,通过使用拓扑图的方式直观的展示。
进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的图标。
图6-7 获取拓扑
(1) 进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的图标。
(2) 在弹框中输入参数:
¡ 一级:拓扑链路带宽利用率一级告警阈值。超阈值,流量热图变成红色。
¡ 二级:拓扑链路带宽利用率二级告警阈值。超阈值,流量热图变成黄色。
(3) 单击<确定>按钮,保存配置。
图6-8 配置拓扑链路带宽利用率阈值
单击<重置>按钮,可以重置拓扑链路带宽利用率阈值为默认值。
进入[健康分析>健康概览>拓扑]页面,单击拓扑图右下角的图标。
图6-9 开启流量热图
进入[健康分析>网络分析>网络健康度>概览]页面,添加“网络设备登录次数分布图”仪表。
图6-10 添加仪表
· 进入[健康分析>健康概览>拓扑]页面,查看整网拓扑信息。该页面展示了整网的物理拓扑图,同时展示了各个设备的健康度,以及链路的状态。通过拓扑图右下方的操作按钮,可以对拓扑图进行操作,包括拓扑放大、缩小、保存操作,开启、关闭流量热图以及链路设置等操作。
图6-11 整网拓扑
· 进入[健康分析>网络分析>网络健康度>概览]页面,“网络设备登录次数分布图”仪表展示交换机的登录次数。
图6-12 网络设备登录次数分布图
丢包分析的实现可以分为数据采集,数据处理入库,数据页面可视化展示3个步骤。数据采集通过在设备上下发grpc配置;数据处理入库则是使用Flink实时消费处理Kafka中采集器上送过来的数据并将数据持久化到MPP数据库;最后在网络健康度概览页面展示全局的丢包,超限和使用率等情况以及在设备详情页面展示该设备的丢包,超限和使用率等情况。
丢包分析目前支持TCB丢包分析和MOD丢包分析。
· TCB(Transient Capture Buffer,瞬时抓包缓存)是一种用来监控MMU(Memory Management Unit,缓存管理单元)队列丢包的技术。开启TCB功能后,系统将持续监控队列。当队列发生丢包时,系统将收集丢包时间、丢包原因、被丢弃报文的原始数据等信息,可通过gRPC方式上报网管或分析系统,方便网络管理员及时知晓设备上发生的丢包事件。
· MOD(Mirror On Drop,丢包镜像)是一种专门用来监控报文在设备内部转发过程中丢包情况的技术。一旦监控到设备内部发生丢包,就会立即记录丢包发生的时间,丢包原因和丢弃报文的特征,并上报给网管或分析系统,以便管理员及时知晓设备内部发生的丢包情况。
· 丢包分析配置和其他配置有互斥的情况,TCB、MOD丢包功能当前支持H3C交换机6850、6825、6805、S9850等产品。MOD丢包分析和INT、Telemetry stream冲突,无法同时生效。,请根据需要配置。
· TCB、MOD功能,需要在交换机上设置全局配置。开启之后对交换机的性能有一定影响,建议在开启之前,与对应产品确认是否可以开启。
(1) 创建编号为3001的IPv4高级ACL,并为其创建规则,以匹配源IP地址为192.168.1.1的报文为例:
<Device> system-view
[Device] acl advanced 3001
[Device-acl-ipv4-adv-3001] rule permit ip source 192.168.1.1 0
[Device-acl-ipv4-adv-3001] quit
匹配的IP报文,请根据实际需要进行配置,限制报文的源、目的,或源和目的都限制,或者全部匹配。
(2) 配置TCB
以下列配置为例,在全局出方向匹配ACL 3001的报文开启TCB功能,进入预触发状态的队列长度门限值为10000字节,退出预触发状态的队列长度门限值为5000字节,抓包数量为1000,抓包时间为500微秒,预触发状态时的采样率为10,触发状态时的采样率为10,数据上报频次为600次/分钟。
[Device] buffer transient-capture global egress enable acl 3001 start-threshold 10000 stop-threshold 5000 frozen-number 1000 frozen-timer 500 pre-sample-rate 10 post-sample-rate 10 poll-frequency 600
[Device] buffer transient-capture global egress enable
gRPC的配置方法请参见《AD-DC 6.3智能分析业务配置指导》或9 4. 如何配置gRPC。
通过gRPC发送TCB丢包信息到分析组件,需要配置以下路径:
sensor path tcb/tcbpacketinfoevent
· 开启并配置MOD
(1) 配置telemetry mod进入mod视图
[Device] telemetry mod
[Device-telemetry-mod]reason-list ip-multicase-error unknown-vlan ipv4-l3-header-error tunnel-header-error parity-error higig-header-error invalid-tpid //配置MOD功能监控的丢包原因列表,目前驱动支持8种情形,ipv4-dip-miss会命中缺省路由的这种情况,不建议配置ipv4-dip-miss
[Device-telemetry-mod] device-id 2.1.1.11 //配置MOD功能的设备标识ID,设备环回口地址
[Device-telemetry-mod] sampler samp //开启MOD功能的采样功能
[Device-telemetry-mod] transport-protocol grpc //配置传输协议为gRPC,即通过gRPC方式上报丢包原因告警报文
[Device-telemetry-mod] quit
(2) 创建采样器
[Device] sampler samp mode random packet-interval n-power 4 //按照2的幂次采样,即1/16采样
(3) 创建一个simple-mod模式的Flow group并进入视图
[Device]telemetry flow-group 1 mode simple-mod //创建一个simple-mod模式的Flow group并进入视图
[Device-flow-group-1]template source-ip destination-ip source-portdestination-port //配置流表的生成规则
[Device-flow-group-1]if-match acl name mod //引用名称为mod的acl规则,即只有匹配上规则的流量才生效;该规则需提前建立
(4) 应用flow group
[Device] telemetry apply flow-group 1
(5) 配置流表的老化时间为10分钟
[Device] telemetry flow-group aging-time 10
· 开启并配置gRPC
gRPC的配置方法请参见《AD-DC 6.3智能分析业务配置指导》或9 4. 如何配置gRPC。
通过gRPC发送MOD丢包信息到分析组件,需要配置以下路径:sensor path telemetryftrace/genevent
TCB和MOD部分配置只能手工下发,不支持控制组件配置。
进入[分析选项>全局配置>应用配置]页面,新建自定义应用。
· 名称:定义的应用名称,应用名称“最长36个字符,支持中文、字母、数字、下划线”,必填
· 协议:该应用采用的通信协议,支持TCP、UDP、ANY三种内容,默认TCP
· 服务器IP:组成应用的服务器一个或多个IP地址
· 服务器端口:应用的服务器段使用的通信端口
· 其他参数:可选
图6-13 应用配置
进入[健康分析>网络分析>网络健康度>概览]页面,在设备列表中的单击设备名称,进入设备详情页面,可以查看流量转发丢包信息,以及缓存队列丢包信息。
· 在流量转发丢包部分,可以查看丢包原因,以及发生丢包匹配到的应用数量;选择矩形图中的某个时间点,可以与右侧的应用转发丢包列表联动,展示该丢包原因在该时间点的具体丢包应用。
图6-14 流量转发丢包信息
· 在缓存监控中,进入丢包详情页签,可以查看缓存队列丢包(采样数据,非真实丢包数据)的趋势信息。
图6-15 缓存队列丢包信息
变更分析的实现可以分为数据采集,数据解析,数据对比,数据查询四个步骤。
(1) 数据采集:通过NetConf或gRPC采集IPv4 Route、IPv6 Route、MAC、ARP、LLDP、VSI、VRF、L2VPN MAC、设备配置信息等信息,通过SNMP Trap可触发设备配置采集。通过设备侧增量上送变更的数据可在短时间内感知数据变化。
(2) 数据解析:使用Flink实时消费处理Kafka中采集器上送过来的数据,借助散列算法快速判断数据是否发生变化并将数据解析成特定格式持久化到数据库。
(3) 数据对比:将处理完的数据与较早时间前采集到的数据进行对比,并将对比完的结果缓存以及持久化到数据库中,同时也会将对比完的结果生成增量数据落库。对于增量上送的方式,此处仅需要对增量进行统计而无需对比即可获取对比结果。
(4) 数据查询:提供REST API获取网络变更统计、网络变更趋势、变更设备列表的信息以及详细的对比结果。
可参考6.1.1 配置步骤网络健康度功能的配置步骤开启分析组件解析任务。
进入[健康分析>网络分析>变更分析]页面,可查看变更分析详情。
· “变更分析”页面展示了发生变更的设备占比。从设备和变更项的维度,对网络中发生的变更进行统计。展示了网络变更的趋势信息。
图6-16 变更分析
· 在变更设备列表中,展开设备详情,可以查看配置、表项和版本的变更情况。单击某一个变更项,可以进入到该变更项详情页面,里面详细展示了变更的具体信息。
图6-17 变更设备列表
图6-18 变更详情
异常分析的实现可以分为故障发现、故障处理、预案回退这3个步骤。
(1) 故障发现:当发现故障问题后采集器会将故障类型,故障设备,故障时间,链路信息,故障告警信息发送给异常分析。
(2) 故障处理:故障处理过程有以下两种情况:用户主动下发预案和故障自动恢复。
¡ 用户主动下发预案,处理故障:用户可在故障诊断页面的处理建议处,选择预案发送到控制组件,来执行故障的处理操作。处理完成后,问题状态变成CLOSE。
¡ 故障自动恢复:若故障由于人为因为处理完成,在页面上显示此问题状态变成CLOSE。
(3) 预案回退:预案下发成功后,用户还可以回退预案,预案回退后,问题状态就重新变成OPEN,则此问题尚未解决。
进入[分析选项>任务管理>分析任务]页面,启动异常分析Java、异常分析、异常分析GRPC。
图6-19 异常分析解析任务
(1) 进入[诊断分析>异常分析]页面,查看异常分析信息展示。
(2) 概览页面展示了发生的问题汇总。问题列表中展示了问题的级别、问题名称、故障对象、事件状态、问题状态,以及问题发生时间和持续时间等。设备、网络等页签下进行了分类展示,同时展示了具体的问题case。
(3) 单击展开问题后,可查看问题的根因分析、影响分析、问题详细过程以及处理建议。
(4) 单击问题列表中的操作按钮,可与控制组件联动,进行闭环操作预案下发(部分问题支持故障闭环预案下发操作)。
(5) 对问题进行确认和处理后,该问题会移入历史问题列表中。
图6-20 异常分析
图6-21 问题详情
图6-22 问题分类展示
意图验证主要针对的是数据平面的验证,即通过采集配置变更后的网络数据,建模验证网络实际转发行为是否与用户业务意图一致。用户可以通过验证结果辅助确认变更是否符合预期、是否引入问题等等,并且对于验证失败的意图,可以进一步定位追溯失败原因,从而极大提升网络变更场景下的运维保障效率。
在完成网络部署后,分析组件会定期采集网络设备的转发表项,如路由转发表项、ARP表项、VxLAN -Peer链接关系及状态、Underlay物理链路关系及状态等信息并提交给DPV引擎;DPV引擎通过仿真验证算法模拟网络设备的转发行为,并最终给出通断、中断原因、途径节点等结果。
图6-23 意图验证流程
通过使能验证任务可以定时验证指定Fabric中使能的意图并配置验证周期参数。
进入[诊断分析>意图验证]页面,单击<设置验证任务>按钮,在弹框中指定Fabric中使能的意图并配置验证周期参数。
图6-24 设置验证任务
通过使能意图,可以在周期任务中验证这些意图。
两种方式:
· 批量选择,单击<使能选中意图>按钮,使能需要验证任务
· 使能某个任务,在“使能”区段,开启使能开关
图6-25 设置验证任务
自定义意图指自定义的可达性意图和隔离性意图。
进入[诊断分析>意图验证]页面,单击<增加意图>按钮,在弹框中配置相应参数,创建自定义意图任务。
· 类型:设定意图类型可达性或者隔离性。
· 名称:设置意图的名称。
· Fabric:选择该意图所属的Fabric。
图6-26 增加意图
进入[诊断分析>意图验证]页面,查看意图验证结果。
· 在意图验证页面,可查看意图验证的汇总数据,以及历史趋势、当前的意图列表。
· 在意图列表中,可以自定义添加、删除意图,设置验证任务的周期,批量对意图进行使能等操作。
· 在验证记录中,可以查看意图的验证记录,同时也可查看该记录中验证了哪些意图。
· 在网络模型中,记录了历史的网络快照信息,点开每个快照,可查看快照详情。
· 在问题上报设置中,可对是否上报问题(推送至异常分析)进行自定义设置。
图6-27 意图验证
· 在意图列表中,展示了当前预定义意图以及自定义意图。单击意图的状态,可以跳转到整网预置验证页面,查看该意图的详情展示。
图6-28 意图验证详情展示
TCP流分析基于ERSPAN或者Telemetry Stream报文采集过来的数据,进行时延、路径等会话数据的计算和分析,结合Fabric、主机、应用、会话四个业务维度进行分析展示当前网络的健康数据。
· 基于ERSPAN的报文采集
a. 客户端/服务器发起TCP连接建立请求,向对端发送TCP SYN报文。
b. 沿途交换机捕获SYN报文封装为ERSPAN报文发送给SeerAnalyzer。
c. SeerAnalyzer解封装ERSPAN报文,分析报文路径及沿途各交换机转发延迟等数据。
d. 沿途交换机捕获后续TCP控制报文(SYN/FIN/RST报文)并发送给SeerCollector,SeerAnalyzer分析TCP连接质量。
图6-29 基于ERSPAN的报文采集
· 基于Telemetry Stream的报文采集和分析
a. 在流量入接口通过ACL对原始报文进行筛选,命中规则的报文被复制,采样至设备内部的Telemetry Stream处理器。Telemetry Stream处理器向报文中添加采集信息(流量入接口)。
b. Telemetry Stream处理器将携带采集信息的报文环回至环回组,环回组中的接口识别出本机环回报文,对其添加采集信息(时间戳),然后查表转发至出接口。
c. 出接口识别出本机环回报文,对其添加采集信息(流量出接口和时间戳),然后上送至Telemetry Stream处理器。
d. Telemetry Stream处理器对其加封装,然后封装报文携带采集信息路由至采集器。
图6-30 基于Telemetry Stream的报文采集和分析
在总览页签结合Fabric业务维度进行分析展示当前网络的健康数据。
Fabric 总览功能主要是从Fabric角度总览数据中心中的概览统计、以及重要指标统计分析图标呈现,如:全网建连趋势图、TOP5设备趋势图、设备端口链路状态趋势图、TOP5设备端口链路时延统计、Fabric间会话交互热图、Fabric间会话交互统计图。
· 在进行配置之前,请参见《AD-DC 6.3智能分析业务配置指导》,完成配置网络设备、添加网络资产、配置协议模板、设置协议操作。
· ERSPAN和Tel emetry stream实现了同样的功能,不能同时使用这2种技术。
(1) 控制组件增加采集器
进入[分析>采集配置>Telemetry>采集器]页面,增加采集器。
¡ 名称:采集器的名称,最大长度255字节。
¡ IP地址:11.1.1.2(采集器的浮动IP),用于Erspan/INT/Telemetry stream采集,INT采集使用5555端口号,Telemetry stream采集使用9995端口号。用于流分析的数据采集。该采集器只有在流分析启用时才需要配置(通过控制组件下发采集配置)。
¡ 端口号:INT采集使用5555端口号,Telemetry stream采集使用9995端口号。
¡ VRF:设备发送数据到分析组件(gRPC)或采集器(ERSPAN/telemetry stream/INT)时的VRF。若勾选是,则使用管理VRF;若勾选否,则使用自定义的VRF,不填写时,表示使用公网。
图6-31 添加采集器
(2) 配置远程镜像
进入[分析>采集配置>Telemetry>远程镜像]页面,单击<增加>按钮,添加远程镜像。
¡ 名称:镜像任务的名称。
¡ 交换机设备名称:选择被镜像的设备名称。
¡ 采集器名称:步骤(1)配置的采集器名称。
¡ 接口名称:可以不指定。
¡ VRF:设备转发镜像报文到采集器的VPN。请根据实际组网配置。
¡ 匹配报文规则:匹配普通报文,或匹配带VXLAN封装的报文。若进入设备的报文不带VXLAN封装,则匹配普通报文;若进入设备的报文带VXLAN封装,则匹配VXLAN报文。以leaf-spine-border场景为例,leaf匹配普通报文,spine/border匹配VXLAN报文。
¡ 规则信息:匹配报文中TCP的标志位。包括SYN、FIN、RST。
图6-32 增加远程镜像
图6-33 规则信息
如果未安装控制组件,可通过手动配置。如果已通过控制组件下发,请跳过该步骤。
手动配置以leaf11设备为例。
(1) 创建ACL。
[Device] acl advanced name acl_test
[Device-acl-ipv4-adv-acl_test] rule 0 permit tcp syn 1
[Device-acl-ipv4-adv-acl_test] rule 5 permit tcp fin 1
[Device-acl-ipv4-adv-acl_test] rule 10 permit tcp rst 1
[Device] quit
(2) 创建流分类。
[Device] traffic classifier cla_test operator and
[Device-classifier-cla_test] if-match acl name acl_test
[Device-classifier-cla_test] quit
(3) 创建流动作。
[Device] traffic behavior be_test
[Device-behavior be_test]
mirror-to interface destination-ip 11.1.1.2 source-ip 192.168.12.23 //11.1.1.2采集器浮动IP,192.168.12.23设备管理地址
[Device-behavior be_test] quit
(4) 创建QoS Policy。
[Device] qos policy policy_test
[Device-qospolicy-polict_test] classifier cla_test behavior be_test
(5) 全局inbound方向应用qos policy策略。
[Device-qospolicy-polict_test] qos apply policy policy_test global inbound
(6) 查看配置生效,仅做示意图展示配置效果。
[Device] display qos policy global
图6-34 查看配置生效
· 不同角色设备下发的Erspan配置中的匹配有所差别,主要在于是否匹配VXLAN封装后内层的TCP报文的flag标记位。
· 采集器若连接的是M-LAG设备(目前只能是单挂组网),首先需要把该M-LAG的两台设备都要增加对应的远程镜像;其次
· 上线M-LAG默认下发IPL逃生的相关配置配置,此时没有挂采集器的M-LAG的那台设备到采集器采集网卡的路由的出接口为该IPL逃生vlan虚接口,若给该设备配置远程镜像选择接口名称的话,接口为该设备到对端M-LAG设备的IPL的聚合口。
(1) 同ERSPAN一样,通过控制组件使能交换机的Telemetry Stream功能需要先在控制组件上配置采集器,请参见《AD-DC 6.3智能分析业务配置指导》或9 4. 如何配置gRPC中添加采集器的相关内容。
(2) 通过控制组件配置Telemetry Stream
进入[分析>采集配置>Telemetry>Telemetry Stream]页面,单击<添加>按钮,增加交换机的Telemetry Stream配置。
¡ 名称:配置任务的名称。
¡ 交换机设备名称:被采集的设备名称。
¡ 源IP地址:发送telemetry stream报文的源地址,设备的环回口地址。
¡ 源端口:发送telemetry stream报文的源端口,固定配置为12。
¡ 采集器名称:步骤(1)配置的采集器名称。
¡ 采样率:配置采样率,按照2的次方模式采样,建议采样率配置为0,例如采样率配置为2,表示1/4。
¡ 业务环回组接口名称:交换机用于报文环回的接口,需要是交换机的空闲接口,注意选择接口后,则会将该接口配置清除。
¡ 设备接口:选择需要使能Telemetry Stream的接口。
图6-35 增加Telemetry Stream
如果未安装控制组件,可通过手动配置。如果已通过控制组件下发,请跳过该步骤。
(1) 开启Telemetry Stream的时间戳功能。
[Device] telemetry stream timestamp enable
(2) 配置设备ID。
[Device] telemetry stream device-id 192.168.12.23 //设备管理IP
(3) 配置上送采集器的报文的封装信息。
[Device] telemetry stream collector source 2.1.1.11 destination 11.1.1.2 source-port 12 destination-port 9995 //2.1.1.11环回口地址,11.1.1.2采集器浮动IP地址
(4) 配置业务环回组1。
[Device] service-loopback group 1 type telemetry-stream
(5) 加入业务环回组。
[Device] interface Twenty-FiveGigE1/0/40
[Device-Twenty-FiveGigE1/0/40] port service-loopback group 1
[Device-Twenty-FiveGigE1/0/40] quit
(6) 创建采样器。
[Device] sampler samp_test mode random packet-interval n-power 0
(7) 创建ACL策略。
[Device] acl advanced name acl_test
[Device-acl-ipv4-adv-acl_test] rule 0 permit tcp syn 1
[Device-acl-ipv4-adv-acl_test] rule 5 permit tcp fin 1
[Device-acl-ipv4-adv-acl_test] rule 10 permit tcp rst 1
[Device-acl-ipv4-adv-acl_test] rule 15 permit vxlan inner-protocol tcp inner-syn 1
[Device-acl-ipv4-adv-acl_test] rule 20 permit vxlan inner-protocol tcp inner-fin 1
[Device-acl-ipv4-adv-acl_test] rule 25 permit vxlan inner-protocol tcp inner-rst 1
[Device-acl-ipv4-adv-acl_test] quit
(8) 以接口GigabitEthernet1/0/1为例,配置Telemetry Stream动作,请在需要采集流量的接口上配置。
[Device] interface Twenty-FiveGigE1/0/1
[Device-Twenty-FiveGigE1/0/1] telemetry stream action 1 acl name acl_test sampler samp_test
[Device-Twenty-FiveGigE1/0/1] quit
(9) 查看配置生效情况。
[Device] dis telemetry stream
在设备上采集的信息,需要发送给采集器进行分析,故需要采集设备有到采集器浮动IP(采集器配置见2. 采集器配置)的路由。
在分析组件上完成采集器相关配置后(采集器配置见10.3.2章节),采集器会通过采集网卡,和直连设备建立OSPF邻居,将采集器浮动IP发布出来。其他采集设备到采集器浮动IP的路由,需要自行配置。
本小结介绍在采集网卡直连设备上需要进行的OSPF相关配置。以采集网卡地址为11.1.1.3/29,采集器浮动IP地址为11.1.1.2,采集网卡直连设备的IP地址为11.1.1.1,设备上配置ospf 57,接口所在VLAN为vlan11为例进行说明:
(1) 进入和采集网卡直连的接口,将接口加入到VLAN,本文以Device-Twenty-FiveGigE1/0/34接口为例,接口为bridge模式。
[Device]interface Twenty-FiveGigE 1/0/34
[Device-Twenty-FiveGigE1/0/34]port access vlan 11
[Device-Twenty-FiveGigE1/0/34]quit
本例中接口为bridge模式,也可以使用route模式,直接配置IP地址。若是route模式,可忽略步骤2。
(2) 给VLAN配置IP地址。
设备上配置的IP地址掩码应和采集网卡IP地址掩码一致。
[Device]interface Vlan-interface 11
[Device-Vlan-interface11]ip address 11.1.1.1 29
[Device-Vlan-interface11]quit
(3) 配置OSPF。
在area中配置网段,以area配置为0,掩码24位为例。
配置OSPF的area值需要与SeerCollector采集器保持一致。请提前规划ospf area和掩码配置。SeerCollector采集器配置详见2. 采集器配置。
[Device]ospf 57
[Device-ospf-57]area 0
[Device-ospf-57-area-0.0.0.0]network 11.1.1.0 0.0.0.255
[Device-ospf-57-area-0.0.0.0]quit
[Device-ospf-57]quit
(4) 查看ospf邻居。
[Device]display ospf peer
图6-36 查看OSPF邻居
(5) 设备和采集器成功建立OSPF邻居后,可以在设备上查看到采集器浮动IP的路由。
[Device]display ip routing-table 11.1.1.2
图6-37 查看采集器浮动IP路由
(6) 应用配置。
进入[分析选项>资源管理>资产管理>主机管理]页面,根据实际应用场景设置需要主机发现地址范围。
设置:设置主机发现地址范围
图6-38 设置主机发现范围
(8) 应用集群配置。
进入[分析选项>全局配置>应用集群配置]页面,根据实际应用场景设置需要配置应用集群。
设置:设置应用内集群IP地址范围。
图6-39 设置应用内集群IP地址范围
进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。
图6-40 启动TCP流解析任务
该章节适用于INT流分析、TCP流分析、UDP流分析等功能。
进入[分析选项>采集管理>采集器管理]页面,单击<增加节点>按钮,新增采集节点。
· 主机IP:采集服务器的管理IP。
· 用户名:采集器的用户名。
· 密码:采集器的登录密码。
图6-41 增加采集节点
进入[分析选项>采集管理>采集器管理>先知采集器>增加集群]页面,增加集群节点。
· 集群名称:创建集群的名称。
· 采集节点:选择已添加的采集器节点,并对已选节点进行网络配置。
· 采集器浮动IP地址:交换机远程镜像的目的地址,设备Telemetry Stream目标采集器的IP地址,该IP和采集网卡IP在同一网段,不需要在采集器上进行配置,具体地址请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表,配置采集器浮动IP之前,需要先进行节点配置。
图6-42 集群配置
对已选节点,单击<配置>按钮,在弹出框中进行节点配置。
· 数据上报网口物理IP地址:采集器和分析组件数据通信,为采集器管理IP,具体地址请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表。
· 设备管理网口物理IP地址:对采集器进行远程管理,为采集器管理IP,具体地址请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表。
· PTP时钟同步网口物理IP地址:采集器之间PTP时钟同步使用的IP地址,需要确保IP所在物理网卡支持PTP功能,为采集器管理IP,具体地址请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表。
· 数据采集网口物理IP地址:采集交换机的业务报文,采集网卡对应的IP,具体地址请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表。
· 数据采集网口掩码:采集网卡IP的掩码,具体地址规划请参见《AD-DC 6.3智能分析业务配置指导》“设备和服务器各接口IP地址详情”表,采集器上ospf路由配置也使用该掩码。
· ospf area:采集器上ospf的区域号,和采集网口直连设备的ospf区域号一致。
图6-43 节点配置
请参见6.3.1 2. 应用配置丢包分析功能的应用配置步骤。
进入[分析选项>资源管理>资产管理>主机管理]页面,根据实际应用场景设置需要主机发现地址范围。
图6-44 设置主机发现范围
进入[分析选项>全局配置>应用集群配置]页面,根据实际应用场景设置需要配置应用集群。
设置:设置应用内集群IP地址范围。
图6-45 设置应用内集群IP地址范围
进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。
图6-46 启动TCP流解析任务
进入[健康分析>流分析>TCP流分析]页面,查看TCP流分析结果。从Fabric、主机、应用、会话等不同维度进行统计分析。
· Fabric概览数据,包括Fabric的数量、主机数、时延、建连数等信息。此外还有建连趋势图、链路时延统计、Fabric间会话交互、Fabric等信息。单击Fabric列表,可以进入到Fabric的详情页面,详细展示了该Fabric的统计信息。
· 主机、应用、会话页面,从不同维度对网络内的流量进行统计分析。包括了Top10建连失败数(失败率)、应用事件、会话统计(会话详情)等详细信息,以及应用、会话相关预测数据。
图6-47 TCP流分析
图6-48 主机页面
图6-49 应用页面
图6-50 会话页面
不合规分析功能通过采集器采集网络中的TCP流量,提取所需信息写入消息队列。流处理根据所设置的流量交互规则,从消息队列中过滤出不合规流量。通过对这些流量在不同维度和时间窗口内上进行聚合、过滤。得到不同粒度下的不合规流量信息。
设备侧的配置可参考6.7.1 1. 设备侧配置TCP流分析功能的设备侧配置步骤。
采集器的配置可参考6.7.1 2. 采集器配置TCP流分析功能的采集器配置步骤。
请参见6.3.1 2. 应用配置丢包分析功能的应用配置步骤。
请参见6.7.1 3. 流分析页面配置中的TCP流分析功能的主机管理配置步骤。
进入[健康分析>流分析>TCP流分析>阈值配置]页面,操作配置。
· 全局链路时延异常阈值:全局链路时延大于此值则视为异常。
· TCP建连失败率阈值:TCP建连失败率大于等于此值认为TCP响应异常。
· SYN Flood攻击-TCP连接请求速率阈值:当某目的主机的TCP连接请求速率达到该阈值时,系统识别为SYN Flood攻击。
图6-51 阈值配置
TCP不合规规则配置用于判断TCP流量是否合规,系统通过[健康分析>流分析>TCP流分析>规则配置]页面,创建流量交互合规规则,配置规则名称、源IP和源端口,目的IP和目的端口以及是否允许互访等配置。
· 规则名称:填写规则名称。
· 交互合规约束:选择“源对象不允许访问目的对象”。
· 源对象和目的对象:可以通过选择应用选择已经配置的应用,也可以自定义IP信息。
图6-52 规则配置
参考5 配置任务的操作步骤,启动TCP流解析任务、SynFloodAttack流处理任务、Illegal不合规流量分析任务。
进入[健康分析>流分析>TCP流分析>不合规分析]页面,查看不合规分析结果。
· 不合规流量页面包括不合规会话数统计、受影响的应用数、不合规会话趋势统计、不合规主机分布,以及规则命中会话数热力图。选择规则命中会话数分布热力图中的某个点进行下钻,可以看到规则详情、不合规的会话趋势、建连失败率、Top10不合规会话的IP会话信息。
图6-53 不合规分析
图6-54 规则命中会话热力图
图6-55 点击热力图下钻
· 在SYNFlood页面,可以查看被攻击的主机数、主机被攻击趋势图、应用被攻击趋势图、攻击对象的分布、以及原始问题列表。单击原始问题列表,可以展示被攻击主机详情,包括攻击的基本信息、分析结论、以及IP会话列表。
图6-56 SYNFlood信息1
图6-57 SYNFlood信息2
图6-58 SYNFlood详情
应用健康度页面展示在指定时间范围内所有应用报文在带内设备间传输的各种性能指标总体情况。主要包含健康度趋势图、健康汇总、应用交互丢包信息等内容。
设备侧的配置可参考6.7.1 1. 设备侧配置TCP流分析功能的设备侧配置步骤。
采集器的配置可参考6.7.1 2. 采集器配置TCP流分析功能的采集器配置步骤。
请参考6.3.1 2. 应用配置丢包分析章节的应用配置步骤。
请参见6.7.1 3. 流分析页面配置中的TCP流分析功能的主机管理配置步骤。
进入[分析选项>任务管理]页面,在“分析任务”区域启动TCP流解析任务。
图6-59 启动TCP流解析任务
(1) 进入[健康分析>应用分析>应用健康度]页面,查看应用健康度结果。包括应用健康度趋势、应用Top10信息统计。
图6-60 应用健康度
(2) 单击应用Top10信息,可以展示该应用对应指标的详细数据。在详情页面,单击访问应用内IP,可以继续跳转至流分析会话页面,展示根据源、目的IP过滤的会话信息。
图6-61 TOP10详情下钻
事件分析分为网络事件和应用事件。
· 网络事件页面展示用户所选时间内,系统中发生问题基于各设备类型的统计,通过对问题的逐步细化,最终展示都有哪些设备发生此类问题。
· 应用事件页面展示用户所选时间内,系统中发生问题基于TCP会话或MOD设备丢包镜像监控异常类型的统计,通过对问题的逐步细化,最终展示都有哪些TCP或MOD会话发生此类问题。该功能安装TCP组件后可用。
进入[诊断分析>事件分析]页面,查看事件分析结果。事件分析包括了网络事件和应用事件,且分别进行了分类统计、展示。
网络事件中,“统计”页签下,展示了该事件历史发生的趋势信息;“影响分布”页签下,展示了该事件影响的设备,单击设备名称,可以展示事件发生的时间点,以及设备部分详情信息。
图6-62 事件分析
UDP流分析通过ERSPAN或者Telemetry Stream,将全部的UDP流镜像实时采集设备到分析组件,UDP全流分析提取每个采集报文的五元组为会话key、统计报文大小、报文个数。提供设备、会话、源主机、目的主机等维度,分析流量的TOPN流量情况、丢包情况等,支持下钻到会话列表和会话列表分析流量明细数据。
设备侧的配置可参考6.7.1 1. 设备侧配置TCP流分析功能的设备侧配置步骤。
Telemetry stream和ERSPAN不能同时配置。
设备侧配置ACL规则需要匹配UDP,例如rule permit udp。
· 如果udp数据较多,需要配置具体的source或者destination等进行过滤,举例如下:
[Device] acl advanced name acl_test
[Device-ipv4-adv-acl_test] rule permit udp source 1.1.1.0 0.0.0.255 destination 2.2.2.0 0.0.0.255
此处IP地址为业务IP,请根据实际情况配置,source、destination请根据实际情况选择一种或全部。
· 当使能了Telemetry stream功能时,匹配UDP报文,ACL需要过滤Telemetry的目的端口9995,否则会出现多次镜像。举例如下:
[Device] acl advanced name acl_test
[Device-ipv4-adv-acl_test] rule 0 permit tcp syn 1
[Device-ipv4-adv-acl_test] rule 1 permit tcp ecn 3
[Device-ipv4-adv-acl_test] rule 5 permit tcp fin 1
[Device-ipv4-adv-acl_test] rule 10 permit tcp rst 1
[Device-ipv4-adv-acl_test] rule 15 permit udp destination-port neq 9995
采集器的配置可参考6.7.1 2. 采集器配置TCP流分析功能的采集器配置步骤。
流分析页面配置请参考6.3.1 2. 应用配置丢包分析的应用配置步骤。
进入[健康分析>流分析>UDP流分析]页面,查看UDP流分析结果。UDP流分析,按设备、源主机、目的主机进行了流量统计,以及设备列表、会话列表。
单击雷达图上的设备或者主机,可以和设备列表或者会话列表联动,展示该设备或会话的详情。
图6-63 UDP流分析
图6-64 设备列表
图6-65 会话列表
INT随流分析基于IFA(又称INT,In-band Network Telemetry)技术,将流经过的设备、端口、时延等信息记录下来。从流的维度分析时延、健康度(通过时延计算)、路径,从设备维度展示设备的接口和时延信息,从设备接口维度展示时延信息。
IFA报文采集:
(1) IFA网络中的首台设备,实现报文的采样和镜像到设备内部IFA处理器,添加IFA头及监测信息后,将报文发送给中间节点。
(2) IFA网络中除首节点和尾节点外的设备,实现IFA报文的自动识别,添加监测信息,将报文发送给下游节点。
(3) IFA网络中的最后一跳设备,实现IFA报文的自动识别,添加监测信息,根据用户配置的报文封装参数,对监测信息进行UDP头及IP头封装,发送给采集器。
图6-66 IFA报文采集
INT流量监控目前仅支持H3C交换机S12500G、S6850和S6805设备。
· INT不能与telemetry stream同时使用。
· 使用INT功能,设备必须配置PTP时钟同步。配置PTP时钟同步,需要配置主节点和从节点。一般设置Spine为根节点,其他设备为从节点,请根据实际组网进行配置。配置方法见9 3. 如何配置PTP时钟同步?。
· 如果为M-LAG设备,则做M-LAG的2两台设备都需添加。接口名称仅支持选择物理接口,若入接口为聚合口,接口名称则选择该聚合口下的所有成员口,并在聚合组上手工配置“undo mac-address static source-check enable”。
· 若INT接口是聚合成员接口,则需要在控制组件的[自动化>数据中心网络>Fabrics]菜单项下,找到对应的设备,配置设备时,开启“聚合成员接口信息上送控制组件”功能。如图6-67所示。
图6-67 聚合成员接口信息上送控制组件
· H3C S6805、S6825、S9850系列交换机使用INT流分析功能时,需要在设备上配置内部环回功能,配置方法见9 2. H3C S6805、S6825、S9850系列交换机如何配置内部环回功能?。配置环回口时,需要使用空闲的接口,在接口上配置环回功能后,该接口的配置会被清除,同时请注意操作时设备给出的提示信息,避免造成其他影响。为避免出现和控制组件数据不同步,可以在控制组件[自动化>数据中心网络>资源池>设备资源]页面,设备的数据同步详情中,将对应配置添加到审计白名单中。
进入[分析>采集配置>Telemetry>采集器]页面,增加采集器,IP地址为采集器浮动IP。
图6-68 增加采集器
(1) 增加INT。
进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加首节点,并为首节点添加规则。
· 名称:INT业务名称。
· 交换设备名称:选择交换机设备名称。
· 源IP地址:源IP地址,设备的环回口地址。
· 源端口号:配置源端口号,配置为7788。
· 采集器名称:选择添加的采集器名称。
图6-69 增加INT首节点
当接口角色为尾节点时,源IP地址、源端口、采集器名称三个参数必须同时配置。
(2) 增加节点。
单击<增加节点>按钮,进入到INT基础设置界面。
· 名称:INT接口业务名称。
· 接口名称:选择INT接口,流量的入接口作为INT接口。
· 接口角色:有个首节点、中间节点、尾节点三个参数选择,该章节选择首节点。
· 采集率:采样率表示复制后的INT报文数量相对原始报文数量的采样率,采用随机采样方式,按照2的次方分之一采样,例如采样率为10,实际生效的采样率为1/1024;配置为0,表示100%的采样。
图6-70 增加节点
(3) 增加规则。
INT基础设置界面,单击<增加规则>按钮。
¡ 名称:规则名称。
¡ IP版本:选择IP版本,选择项为IPv4、IPv6。
¡ 协议名称:选择协议类型,选择项为TCP、UDP、ICMP。
图6-71 增加规则
(4) 通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。
a. 查看下发的ACL策略
[Device] dis acl name ifa_acl
Advanced IPv4 ACL named ifa_acl, 3 rules,
ACL's step is 5, start ID is 0
rule 0 permit tcp
rule 1 permit icmp
rule 2 permit udp
b. 查看报文入接口的inbound方向下发MQC策略
[Device] display qos policy interface
Interface: Twenty-FiveGigE1/0/1
Direction: Inbound
Policy: IN_WGE1/0/1
Classifier: ifa_cla
Operator: OR
Rule(s) :
If-match acl name ifa_cla
Behavior: ifa_be
Accounting enable:
0 (Packets)
Mirroring:
Mirror to the ifa-processor sampler ifa_samp vxlan
c. 查看接口配置
[Device-Twenty-FiveGigE1/0/1]display this
#
interface Twenty-FiveGigE1/0/1
port link-mode bridge
port link-type trunk
port trunk permit vlan 1 11 22
speed 10000
telemetry ifa role ingress
qos apply policy IN_WGE1/0/1 inbound
port link-aggregation group 22
d. 全局下发的用于标识INT设备的设备ID
[Device] telemetry ifa device-id 192.168.12.23 //设备管理IP
e. 查看全局下发的采样器配置,流镜像时引用
[Device] display sampler
Sampler name: ifa_samp
Mode: random; Packet-interval: 10; IsNpower : Y
(1) 进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加中间节点。
图6-72 增加INT中间节点
(2) 单击<增加节点>按钮,增加节点。
图6-73 增加节点
(3) 通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。
a. 报文入接口配置
[Device] interface Twenty-FiveGigE1/0/1
[Device-Twenty-FiveGigE1/0/1] display this
#
interface Twenty-FiveGigE1/0/1
port link-mode bridge
description for_leaf1
port access vlan 20
speed 10000
telemetry ifa role transit
#
[Device-Twenty-FiveGigE1/0/1] quit
b. 全局下发的用于标识INT设备的设备ID
[Device] telemetry ifa device-id 192.168.12.29 //设备管理IP
(1) 进入[分析>采集配置>Telemetry>INT]页面,新增设备并添加尾节点。
图6-74 增加INT尾节点
(2) 单击<增加节点>按钮,增加节点。
图6-75 增加节点
(3) 通过控制组件下发的配置,在设备上生效配置如下,如果没有控制组件,这些配置也可以通过手工配置。
a. 报文入接口配置
[Device] interface Twenty-FiveGigE1/0/1
[Device-Twenty-FiveGigE1/0/1] display this
#
interface Twenty-FiveGigE1/0/1
port link-mode bridge
description for_spine
port access vlan 21
telemetry ifa role egress
#
[Device-Twenty-FiveGigE1/0/1] quit
b. 全局下发的用于标识INT设备的设备ID
[Device] telemetry ifa device-id 192.168.12.25 //设备管理IP
c. 全局下发的尾节点向采集器发送的INT报文的参数
[Device] telemetry ifa collector source 2.1.1.222 destination 11.1.1.2 source-port
7788 destination-port 5555 //2.1.1.22设备环回口地址,11.1.1.2采集器浮动IP地址
采集器的配置可参考6.7.1 2. 采集器配置TCP流分析功能的采集器配置步骤。
请参考6.3.1 2. 应用配置丢包分析章节的应用配置步骤。
进入[分析选项>任务管理>分析任务]页面,启动INT相关任务:IntNetconf资源解析、应用健康概览解析。
图6-76 增加INT相关解析任务
(1) 进入[健康分析>服务质量分析>随流分析]页面,查看INT流分析结果。INT页面展示了应用流数量的趋势、时延Top10、流量Top10、设备时延、数据中心拓扑、INT会话信息等主要信息。
图6-77 INT流分析
(2) 单击会话信息,可以进入到详情页面,展示该应用流的时延趋势、流量趋势(非真实流量)以及应用流路径等信息。
图6-78 应用流路径
图6-79 时延趋势图
图6-80 流量趋势
智能预测功能可以根据已有数据建模,预测未来一段时间各个指标的趋势变化,反映出历史数据的规律。可以根据对未来趋势的可能走势,提前进行相应的运维操作;可以比较预测的趋势与实际趋势之间的区别,判断当前指标是否存在可能的异常,及时告警。
在完成网络部署后,分析组件会定期采集网络设备的各种指标数据,并保存到数据库中。用户在AI任务管理页面配置开启某指标的AI预测功能后,AI预测模块从数据库中自动获取对应的历史数据分析,使用stl+ets算法建模预测,将预测的趋势结果保存到数据库中。相应的业务模块,会根据需要,展示指标未来一段时间的趋势预测;或者将算法预测的未来的趋势变化的上下界,与该指标实际的数据进行比价,判断是否出现异常,并提供告警。
stl+ets算法全称为时间序列分解+指数平滑算法。时间序列分解算法部分,将历史数据分解成周期部分,趋势部分,残差部分之和。之后将趋势+残差部分,应用二次指数平滑算法建模预测。预测结果再加上之前分解的周期部分,形成最终的预测结果,保存到数据库中。
目前分析组件采集的指标数据,大多数为周期性数据,使用STL+ETS算法,能够准确的总结数据的周期性规律,同时兼顾计算效率与预测的趋势准确性。
智能预测使用统计学习和机器学习的方法,对时序数据(KPI)进行规律分析,拟合并预测数据的未来走势,生成基线和预测结果以及异常点的定位。
· 使用智能预测的预测功能之前,需要在[分析>预测分析>AI任务管理]页面下启动对应AI预测任务,AI预测任务每天凌晨1点或3点执行。
· 出于检测精度的考虑,系统需要存有至少一周的数据,才开始进行异常检测。且仅当检测出异常时,折线图中才会显示故障点。
KPI折线图表中,实际值曲线为5分钟粒度的实际数据均值,故障点为分析任务推送的瞬时值,故障点和实际值曲线可能不重合。
进入[预测分析>AI任务管理]页面,选中任务,单击<批量开启>按钮。
图6-81 开启AI预测
进入[预测分析>智能预测]页面,查看设备详情,展开预测KPI指标。
智能预测页面,展示了可预测的设备列表。单击“查看详情”,可以进入到设备的详情页面。
详情页面中,展示了设备KPI指标的趋势图,以及未来的预测趋势。
单击“KPI选择”的下拉框,可以查看设备指定指标的趋势及预测数据。
图6-82 智能预测
健康度报告将分析组件对各场景、各区域的分析统计结果的关键指标以排版后的报告形式呈现给用户。主要包括:
· 用户可自行设置区域和统计周期,并以电子邮件方式发送至用户的电子邮箱内,也可立即生成所选时间段内的报告。
· 用户可以点击立即生成所选时间段的报告下载到本地;
健康度报告功能具有以下优点:
· 可以在电子邮箱内定时获取一定周期内分析组件所分析区域的关键指标报告。以一份报告的形式了解一个区域下的整体网络质量。
· 可以让使用web页面以外的用户可以直观的了解网路质量。
· 邮件服务器地址如果是域名模式,需要在部署统一数字底盘中配置DNS服务器,或者在部署后登录Installer平台,进入[部署>集群>集群参数]页面,修改DNS服务器。
· 立即生成的报告如果选择下载附件方式,需要设置浏览器允许弹出窗口。
(1) 进入[系统>系统配置>邮件服务器配置]页面,输入参数。
¡ 邮件服务器地址:输入邮件服务器的域名和IP。
¡ 邮件服务器端口:输入邮件服务器的端口号。
¡ 邮件服务器要求安全连接(SSL/TLS):选择安全连接方式。
¡ 邮件服务器要求身份验证:勾选后,需输入用户名和密码。
¡ 发件人邮件地址:输入一个可以发送邮件的邮箱。
(2) 单击<发送测试邮件>,提示成功,表示配置成功。
(3) 单击<确定>,保存配置。
图6-83 邮件服务器配置
(1) 进入[分析>健康分析>健康报告]页面,单击<创建任务>按钮。
¡ 报告类型:根据实际情况选择日报、周报、月报。
¡ 开始时间:设置任务开始时间。
¡ 任务名称:输入任务名称。
¡ 失效时间:选择失效时间,失效时间不配置则永不失效。
¡ 邮箱:输入接收报告的邮箱,单击<增加>按钮。
(2) 配置完成后,单击<确定>按钮。
图6-84 创建健康报告任务
进入[分析>健康分析>健康报告]页面,单击<立即生成>按钮。
· 报告类型:根据实际情况选择日报、周报、月报、自定义。
· 开始时间:自定义选择数据的开始时间。
· 结束时间:自定义选择数据的结束时间。
· 报告统计区域:选择统计区域,可选所有区域或逻辑区域。
· 选择生成方式。
¡ 下载附件:选择下载附件,单击<确定>,浏览器下载健康报告附件。
¡ 邮箱:选择邮箱,输入邮箱地址,单击<增加>按钮,再单击<确定>按钮,健康报告生成后立即发送邮箱。
图6-85 立即生成健康报告
· 健康报告可以周期性自动生成,也可以单击页面的<立即生成>按钮,生成健康报告,通过下载或者邮箱可以获取到健康报告。
· 健康报告的内容,包括了资源概览、异常分析概览、健康度的详情、应用分析、变更分析、全网问题总览等内容。
图6-86 健康报告
当前支持RoCE网络分析功能的设备仅有H3C交换机6850系列和Mellanox型号为的mlx4、mlx5网卡的服务器。
需要注意开启RoCE的命令,与telemetry stream有冲突,功能不能共用。
(1) PFC配置
¡ PFC的wred配置
[Device]qos wred queue table QOS-EGRESS-100G-PORT
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 0 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 1 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 2 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 3 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 4 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 0 low-limit 1000 high-limit 131072 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 1 low-limit 1000 high-limit 131072 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 drop-level 2 low-limit 1000 high-limit 131072 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 weighting-constant 0
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 5 ecn
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 0 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 1 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 drop-level 2 low-limit 3500 high-limit 20000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 6 ecn
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 0 low-limit 37999 high-limit 38000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 1 low-limit 37999 high-limit 38000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] queue 7 drop-level 2 low-limit 37999 high-limit 38000 discard-probability 20
[Device-wred-table-QOS-EGRESS-100G-PORT] quit
¡ 接口应用策略
[Device] interface HundredGigE1/0/1
[Device-HundredGigE1/0/1] priority-flow-control deadlock enable
[Device-HundredGigE1/0/1] priority-flow-control enable
[Device-HundredGigE1/0/1] priority-flow-control no-drop dot1p 5
[Device-HundredGigE1/0/1] flow-interval 5
[Device-HundredGigE1/0/1] priority-flow-control dot1p 5 reserved-buffer 17
[Device-HundredGigE1/0/1] priority-flow-control dot1p 5 ingress-buffer static 100//配置静态反压帧门限
[Device-HundredGigE1/0/1] qos trust dscp
[Device-HundredGigE1/0/1] qos wred apply QOS-EGRESS-100G-PORT
[Device-HundredGigE1/0/1] quit
(2) ECN配置
¡ ECN的wred配置
[Device] qos wred queue table aaa
[Device-wred-table-aaa] queue 5 drop-level 0 low-limit 1 high-limit 2 [Device-wred-table-aaa] discard-probability 100
[Device-wred-table-aaa] queue 5 drop-level 1 low-limit 1 high-limit 2 discard-probability 100
[Device-wred-table-aaa] queue 5 drop-level 2 low-limit 1 high-limit 2 discard-probability 100
[Device-wred-table-aaa] queue 5 ecn
[Device] quit
¡ 接口下应用策略
[Device] interface WGE1/0/1
[Device-Twenty-FiveGigE1/0/1] qos wred apply aaa
[Device] quit
(3) gRPC配置
[Device] telemetry
[Device-telemetry] sensor-group evt_SRZRKAS7GR7CM2RQ3IPOLECG7A
[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/portquedropevent
[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/portqueoverrunevent
[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path netanalysis4/rocev2connectionevent
[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path netanalysis4/rocev2statisticevent
[Device-telemetry-sensor-group-evt_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor-group grp_SRZRKAS7GR7CM2RQ3IPOLECG7A
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path acl/ipv4namedadvancerules
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/bufferusages
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/commbufferusages
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/commheadroomusages
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/ecnandwredstatistics
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/egressdrops
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/ingressdrops
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/pfcspeeds
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/pfcstatistics
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path buffermonitor/portqueconfigurations
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path device/base
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path device/extphysicalentities
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path device/physicalentities
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path device/transceivers
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path ifmgr/ethportstatistics
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path ifmgr/interfaces
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path ifmgr/statistics
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path mqc/globalcategorypolicyaccount
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path mqc/ifcategorypolicyaccount
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path mqc/ifpolicyaccount
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path mqc/rules
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path pfc/pfcports/port
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path pfc/pfcports/port/portnodrops/portnodrop
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path qstat/queuestat
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path route/ipv4routes
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
sensor path wred/ifqueuewreds/ifqueuewred
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]sensor path wred/ifqueuewreds/ifqueuewred/dropparameters/dropparameter
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
destination-group grp_VOXJZRJTRI2BPL6YLRRSMB2AMY
[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]
ipv4-address 192.168.16.100 port 50051
[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]
subscription grp_VOXJZRJTRI2BPL6YLRRSMB2AMY
[Device-telemetry-subscription-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]
sensor-group evt_SRZRKAS7GR7CM2RQ3IPOLECG7A
[Device-telemetry-subscription-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY] quit
[Device-telemetry] sensor-group grp_SRZRKAS7GR7CM2RQ3IPOLECG7A sample-interval 10
source-address 2.1.1.11
[Device-telemetry-sensor-group-grp_SRZRKAS7GR7CM2RQ3IPOLECG7A]
destination-group grp_VOXJZRJTRI2BPL6YLRRSMB2AMY
[Device-telemetry-destination-group-grp_VOXJZRJTRI2BPL6YLRRSMB2AMY]
quit
[Device-telemetry] quit
(4) 队列长度最小值,最大值,各队列丢包概率
[Device]interface Twenty-FiveGigE 1/0/20
[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 0 low-limit 4000 high-limit 30000 discard-probability 30
[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 1 low-limit 4001 high-limit 30001
[Device Twenty-FiveGigE 1/0/20] qos wred queue 5 drop-level 2 low-limit 4002 high-limit 30002 discard-probability 2
[Device Twenty-FiveGigE 1/0/20] quit
以上三条配置与交换机配置在端口的qos wred apply冲突,需要按照使用情况来选择;相关内容的展示,是在[网络健康度/队列]页面趋势指标里面的红黄绿三种指标,代表着的是丢弃等级。
(5) 开启RoCE功能
[Device] netanalysis rocev2 mode bidir
[Device] netanalysis rocev2 drop global
[Device] netanalysis rocev2 statistics global
RoCE功能需要服务器上面特殊网卡的支持,当前使用的是迈络思(Mellanox)的百G网卡。
RoCE服务器在正式使用时,需要经过一系列的配置,具体如下:
(1) 安装h3linux。
具体操作请参见《H3C统一数字底盘安装部署指导》。
(2) 准备好光盘镜像,通过HDM虚拟介质挂载iso。
图6-87 挂载镜像
(3) 创建文件夹。
mkdir -p /mnt
(4) 系统文件挂载。
mount /dev/sr0 /mnt
(5) 创建本地路径。
mkdir /data/localyum
(6) 复制文件到本地目录。
cp –rf /mnt/* /data/localyum
(7) 新建repo文件。
cd /etc/yum.repos.d/
(建议先对该目录下的repo文件进行备份)
cp CentOS-Media.repo local_yum.repo
(8) 配置yum文件。
vi local_yum.repo
把baseurl换成上面拷贝文件的路径/data/localyum,enabled设置为1
图6-88 配置yum文件
(9) 备份base文件。
cd /etc/yum.repos.d/
mv CentOS-Base.repo CentOS-Base.repo_bak
(10) 生效yum源。
yum clean all
yum makecache
yum repolist all
(11) 确认系统rpm包。
图6-89 确认系统rpm包
(12) yum安装依赖包。
yum -y install zlib-devel bzip2-devel
yum -y install openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel --skip-broken
yum install createrepo pciutils gcc gcc-c++ flex bison -y
yum install gtk2 atk cairo tcl tcsh tk -y
(13) 安装python。
进入/data/localyum/Packages执行rpm安装:
[root@server60 Packages]# rpm -ivh python-libs-2.7.5-76.el7.x86_64.rpm python-devel-2.7.5-76.el7.x86_64.rpm python-2.7.5-76.el7.x86_64.rpm --force
(14) 安装iperf(可选)。
为使用iperf工具进行带宽测试,进入/data/localyum/Packages执行rpm安装(可选):
[root@server61 Packages]# rpm -ivh iperf3-*.x86_64.rpm
(1) 下载驱动。
https://content.mellanox.com/ofed/MLNX_OFED-4.9-2.2.4.0/MLNX_OFED_LINUX-4.9-2.2.4.0-rhel7.6-x86_64.tgz
(2) 解压。
tar zxvf https://content.mellanox.com/ofed/MLNX_OFED-4.9-2.2.4.0/MLNX_OFED_LINUX-4.9-2.2.4.0-rhel7.6-x86_64.tgz
进入解压后的目录执行./mlnxofedinstall --add-kernel-support
如果不成功根据提示操作,可以在/tmp/MLNX_OFEX**下获取新的安装包*-ext.tgz,重新解压后,执行安装命令 ./mlnxofedinstall –all
(3) 使能驱动。
/etc/init.d/openibd restart
systemctl enable openibd
(4) 检查生效情况。
图6-90 检查生效情况
安装驱动的时候,需要先关闭防火墙:
关闭防火墙命令:systemctl stop firewalld.service
(1) 准备工作
ofed已经安装,并且启动openibd(systemctl status openibd)
# mst start
图6-91 启动
(2) 网卡配置TOS(重启失效)
ibdev2netdev //网卡up表示生效
图6-92 查看Mellanox网卡
配置优先级
mlnx_qos -i enp161s0 -p 0,1,2,3,4,5,6,7
设置RoCE模式是v2
# cma_roce_mode -d mlx5_0 -p 1 -m 2
设置TOS的值
# cma_roce_tos -d mlx5_0 -t 160 (1010 0000,前三比特代表0-7,此处101为5)
设置qos信任模式为dscp
# mlnx_qos -i enp161s0 --trust dscp
(3) 网卡PFC配置(重启失效)
在priority=5队列使能PFC
# mlnx_qos -i enp161s0 --pfc 0,0,0,0,0,1,0,0 (分别代表0~7)
(4) 查询生效情况
查询网卡生效队列与配置队列一致:
图6-93 查询生效情况
(5) 网卡DCQCN配置(重启失效)
基于ECN配置,可先查看,如果是1可不用运行。
# echo 1 > /sys/class/net/enp161s0/ecn/roce_np/enable/5
# echo 1 > /sys/class/net/ enp161s0/ecn/roce_rp/enable/5
(6) DCQCN配置
# mlxconfig -d /dev/mst/mt4115_pciconf0 -y s ROCE_CC_PRIO_MASK_P1=0x20 (0b00100000=0x20=32)
#mlxconfig -d /dev/mst/mt4115_pciconf0 -y s CNP_DSCP_P1=48 CNP_802P_PRIO_P1=6
(7) 确认配置成功
# mlxconfig -d /dev/mst/mt4115_pciconf0 q | grep 'CNP\|MASK'
查询结果与配置一致:
图6-94 确认配置
(8) 设置TCP流量的ECN使能标记
sysctl -w net.ipv4.tcp_ecn=1
net.ipv4.tcp_ecn = 1
进入[分析选项>任务管理>分析任务]页面,启动grpcAnalysis解析任务,如果已经开启该任务,可以忽略该操作。
图6-95 启动grpcAnalysis解析任务
(1) 增加主机。
进入[分析选项>健康分析>网络分析>RoCE网络分析]页面,在服务器页签下,进入服务器管理,单击<添加主机>按钮,添加主机。
¡ IP:服务器的管理IP。
¡ 用户名:登录服务器的用户名。
¡ 密码:登录服务器的密码。
图6-96 添加主机
(2) RoCE网络集群配置。
进入[分析选项>健康分析>网络分析>RoCE网络分析]页面,在集群页签下,进入集群管理;单击<增加>按钮,添加集群。
图6-97 RoCE网络集群配置
进入[健康分析>网络分析>RoCE网络分析]页面,查看RoCE网络分析结果。
· 概览页面,展示了链路、拓扑、交换机和服务器的RoCE相关数据信息。
图6-98 RoCE概览
图6-99 交换机详细信息
图6-100 服务器详细信息
· 会话页面,以四元组的形式记录会话信息,每一个四元组为一个会话信息,不区分源和目的;可以通过会话使能的方式采集会话信息(全部采集或者过滤采集)。
图6-101 会话信息
· 流页面,以四元组的方式记录流信息,每一个四元组为一个流信息,区分源和目的;可以通过路径查看流经过的交换机和服务器。点开流列表下拉框可以查看流路径信息。
图6-102 流信息
图6-103 流路径信息
· 服务器页面,从服务器的维度展示RoCE流量经过时,服务器统计到的相关信息。单击网卡列表数据的下拉框,可以查看网卡相关数据。
图6-104 服务器统计信息
图6-105 网卡数据
· 集群页面,将网卡划分为不同集群,从集群维度统计网卡信息。双击集群间拓扑的边缘可以查看单一集群的统计信息。
图6-106 集群统计信息
图6-107 单一集群统计信息
Super Analyzer-DC(超级分析组件)是应用于跨数据中心场景,支持纳管多个分析组件,提供设备NetStream、sFlow及全流数据采集分析,可以实现跨数据中心网络流量分析,满足多数据中心间网络流量分析场景需求。
分析组件支持纳管Fabric及设备,并提供网络流量分析,但分析组件无法满足数据中心间流量采集及分析,Super Analyzer-DC可以配置数据中心间出口链路,在分析组件中采集出口链路端设备接口流量信息并匹配出口链路数据,上报到Super Analyzer-DC进行分析展示。
图6-108 组网图
进入[分析>跨数据中心网络>配置>站点]页面,配置站点和需要纳管的分析组件及Fabric信息。
图6-109 配置站点纳管分析组件及Fabric
(1) 进入[分析>跨数据中心网络>配置>分析组件]页面,输入已经安装和配置完成的分析组件登录信息,可完成分析组件配置。
图6-110 配置分析组件
(2) 分析组件配置完成后,进入分析组件[分析>分析选项>任务管理]页面,在分析组件上会自动运行超级分析组件流处理任务,不需再额外配置任务。
图6-111 分析组件运行任务
进入[分析>跨数据中心网络>配置>Fabric]页面,新增分析组件后会自动同步刷新该分析组件下的Fabric信息,当纳管的分析组件Fabric配置有变化时,需要手动刷新Fabric列表,与分析组件Fabric保持同步。可在Fabric页面查看该Fabric纳管的设备及设备端口。
图6-112 配置Fabric
进入[分析>跨数据中心网络>配置>出口链路]页面,对已配置的站点和纳管分析组件下Fabric信息,选择配置站点间出口设备端口,完成出口链路配置。出口链路数据源有NetStream和全流数据量中,Netstream数据要求出口链路两端任一设备配置NetStream统计,全流数据链路要求分析组件安装NPA组件并完成采集链路配置。
图6-113 配置出口链路
进入[分析>跨数据中心网络>配置>应用]页面,选择应用类型并输入应用配置信息完成应用新增。应用数据类型共有NetSteam和全流数据,NetStream应用数据需要配置应用IP、端口及协议用于应用识别,全流数据需要先配置出口链路获取绑定的应用。
图6-114 配置出口链路
进入[分析>跨数据中心网络>健康概览]页面,查看跨站点流量和应用分析结果。该页面展示了站点、Fabric、应用、出口链路的统计信息,跨站点应用Top5、跨站点流量分布。单击跨站点应用Top5的详情,可以跳转到跨站点应用页面,查看跨站点应用详细信息。单击流量分布,可以查看跨站点流量详情。
图19-8 健康概览
设备配置netstream,分析组件收到netstream的数据后。新增Flow链路,才能看到设备以及设备下配置netstream的接口。
若需要查看链路的相关数据,可在设备上进行此配置,配置链路一端即可。
Netstream配置:
[Device] ip netstream export version 9 origin-as //配置netstream版本
[Device] ip netstream export host 191.168.10.10 9996 vpn-instance mgmt //191.168.10.10为北向业务虚IP
[Device] ip netstream export source interface M-GigabitEthernet0/0/1 //配置报文输出的源端口
[Device] ip netstream timeout active 1 //配置流的活跃老化时间,推荐配置为1min
[Device] sampler net mode random packet-interval n-power 10 //配置采样率(n-power为10,即2的10次方)
采样率建议配置1024(n-power为10,即2的10次方),如果需要改变设备采样率,需要在分析组件任务管理界面中修改超级分析组件流处理任务的采样率参数,否则会对流量识别准确性产生影响。
在端口上启动NetStream的入方向与出方向的统计功能
[Device] interface WGE1/0/19
[Device-Twenty-FiveGigE1/0/19] ip netstream inbound
[Device-Twenty-FiveGigE1/0/19] ip netstream outbound
[Device-Twenty-FiveGigE1/0/19] ip netstream inbound sampler net
[Device-Twenty-FiveGigE1/0/19] ip netstream outbound sampler net
进入[分析选项>全局配置>链路配置]页面,新建Flow链路。
· 链路名称:自定义链路名称。名称不支持修改,只能包含中文、字母、数字、“_”、“-”、“.”、“@”、“(”,“)”、“[”、“]”,且区分大小写,长度不能超过50位。
· 选择设备:下拉框中选择一个设备。
· 选择接口:接口列表中选择一个接口。
图6-115 链路配置
进入[分析选项>任务管理]页面,在“分析任务”区域启动NetStream流处理任务。
图6-116 NetStream解析任务
进入[健康分析>链路分析>链路流量]页面,查看Flow链路数据。该页面展示了Flow链路的列表,以及链路的流量、流速、包速、数据包等基本信息。
单击链路名称,可以查看链路的详细信息,包括出入方向的流速、包速趋势,以及应用占比。
图6-117 Flow链路列表
图6-118 Flow链路总览
vSwitch资产需要从控制组件导入,其组网规划与控制组件一致。
进入[分析选项>资源管理>资产管理>数据源管理]页面,增加DC控制组件数据源。
进入[分析选项>资源管理>资产管理>资产列表]页面,从控制组件导入vSwitch设备。
· 在[健康分析>网络分析>网络健康度>概览]页面,可查看vSwicth网络健康度情况,包括vSwicth设备健康度趋势,vSwicth设备健康分类展示,以及vSwitch设备列表。
图6-119 vSwitch健康度
图6-120 vSwitch设备列表
· 在[健康分析>健康概览>拓扑>物理拓扑]页面,查看vSwicth设备拓扑信息。
图6-121 vSwitch拓扑
· 在vSwicth设备列表中,点击设备名称,可以进入详情页面,查看vSwicth设备详情信息。
图6-122 vSwitch设备详情信息-1
图6-123 vSwitch设备详情信息-2
· 在[健康分析>网络分析>网络健康度>vSwicth]页面,查看vSwicth详细信息。
图6-124 vSwitch信息-设备维度
图6-125 vSwitch信息-接口维度
应用拓扑页面展示应用间拓扑、应用拓扑图、租户逻辑拓扑与物理拓扑,并可以实现应用间拓扑到逻辑拓扑,应用间拓扑与逻辑拓扑到物理拓扑的映射。
· 应用拓扑
¡ 通过筛选弹窗可根据时间、异常类型、应用名与IP筛选应用间拓扑,应用间拓扑展示了应用间流量或会话数的TOP10信息。根据应用名可在应用间拓扑中筛选出该应用及与其有交互关系的应用;输入IP地址可在应用内拓扑中筛选出该主机及与其有交互关系的主机,支持IP的模糊搜索。
¡ 鼠标双击应用间拓扑上应用对应的区域时可跳转到该应用的应用内拓扑,展示主机间流量或会话数的TOP10信息及TCP异常指标信息。应用内拓扑可通过返回按钮返回应用间拓扑。
¡ 应用间拓扑可根据会话数或流量直观展示应用间的交互状态。当鼠标悬浮在拓扑图上的应用或应用间连线时,会展示相关信息。单击应用或应用间连线可触发映射,相应的逻辑拓扑节点与物理拓扑的节点与链路会高亮显示。
¡ 在“应用拓扑”页面单击“更多”可下钻到应用访问关系页面。
· 应用拓扑图
¡ 应用拓扑图展示所选应用对应的物理设备及链路关系,点击应用展示对应的设备,点击应用交互区域展示链路。
· 租户逻辑拓扑
¡ 租户逻辑拓扑可选择不同租户并展示该租户下的逻辑拓扑,对拓扑修改布局后,点击右下角保存按钮,可以保存拓扑布局。
¡ 单击租户拓扑上的节点可映射到对应的物理拓扑节点,对应的物理拓扑节点高亮显示。
· 物理拓扑
¡ 物理拓扑展示物理设备信息及链路连接关系的拓扑图。
¡ Leaf设备下可展示属于该leaf设备的虚拟端口数量。
· 应用访问关系
¡ 可根据时间、应用名与分析范围筛选应用访问关系,应用访问关系展示了已筛选的应用为源应用和作为目的地址的其他应用间的交互关系,便于用户了解应用的资源占用和服务质量情况。
¡ 右侧列表展示应用访问关系的相关服务质量指标信息,拓扑的连线和目的应用可以与列表的对应行互相联动且高亮显示。
¡ 单击页面右上角的“导出所有”按钮可导出所有应用的访问关系列表,单击列表左上角的“全部导出”按钮可导出筛选的应用的访问关系列表,单击“导出选中”按钮可以导出列表中已勾选的访问关系列表数据。
· 活跃VM分布
¡ 展示所有的活跃主机的数量和单活主机、双活主机的分布占比。
· TOP10接入设备(VM数)
¡ 按照活跃主机数量进行排序,展示接入主机数量最多的10个接入设备。可以体现全网主机的接入情况,接入设备的繁忙程度。
· TOP10接入网关(VM数)
¡ 按照活跃主机数量进行排序,展示接入主机数量最多的10个网关。可以体现全网主机的接入情况,接入网关的繁忙程度。
· VM列表
¡ 展示当前系统中主机信息,包括当前活跃或者历史状态、IP、MAC、接入设备和接入端口、接入网关和网关接口,以及单活或者双活接入方式。可点击操作按钮跳转详情,查看虚机接入历史记录。虚机可能同时存在于不同来源信息中,当虚机同时来源于控制组件同步主机和分析组件发现主机时,优先使用控制组件同步主机信息和上下线历史记录。
· VM接入历史记录
¡ 展示某个主机接入历史,包括上下线时间、状态、IP地址、Fabric、MAC地址、接入设备、接入端口、网关接口、网关IP、VRF信息。
通过流镜像实时采集设备的组播流到分析组件,组播流分析提取每个采集报文的五元组为会话key、统计报文大小、报文个数、时延、流量等。提供组播组、三元组维度,分析丢包会话、总会话、丢包数、总包数、丢弃流量、总流量、平均时延、最大时延。
设备侧的配置可参考6.7.1 1. 设备侧配置TCP流分析功能的设备侧配置步骤。
Telemetry stream和ERSPAN不能同时配置。
当使能了Telemetry stream功能时,匹配UDP报文,ACL需要过滤Telemetry的目的端口9995,否则会出现多次镜像。举例如下:
[Device] acl advanced name acl_test
[Device-ipv4-adv-acl_test] rule 0 permit tcp syn 1
[Device-ipv4-adv-acl_test] rule 1 permit tcp ecn 3
[Device-ipv4-adv-acl_test] rule 5 permit tcp fin 1
[Device-ipv4-adv-acl_test] rule 10 permit tcp rst 1
[Device-ipv4-adv-acl_test] rule 15 permit udp destination-port neq 9995
采集器的配置可参考6.7.1 2. 采集器配置TCP流分析功能的采集器配置步骤。
流分析页面配置请参考6.3.1 2. 应用配置丢包分析的应用配置步骤。
进入[健康分析>流分析>组播分析]页面,查看“组播概览”、“组播组详情”子页签。
在“组播概览”页面下展示系统中的组播组总数、组播组会话总数、组播组丢弃流量及总流量、组播组丢包数及总包数、组播组平均时延及最大时延、Top10流量分析、Top10时延分析、Top10丢包分析。
图6-126 组播概览页面
在“组播组详情”页面下展示系统中组播组丢包会话数及总会话数、丢包数及总包数、丢弃流量及总流量、平均时延及最大时延。以列表形式展示系统中组播组、丢包会话数及总会话数、丢包数及总包数、丢弃流量及总流量、平均时延及最大时延。单击每个组播组地址可以下钻到单个组播组详情页面。
图6-127 组播组详情页面
(1) 在页面右上角查询文本框中输入模板名称,支持模糊查询。
(2) 点击“查询”图标,符合条件的报表模板会显示在列表中。
单击<增加>按钮,进入发布报表模板页面。
点击模板名称链接,设置相应参数后,可预览该报表。
点击报表模板的“详细信息”图标,进入报表模板详细信息页面。
点击报表模板对应操作列的“修改”图标,进入修改报表模板页面。
(1) 单击报表模板对应操作列的“删除”图标,或选择一个或多个报表模板后,单击<删除>按钮,弹出确认对话框。
(2) 单击<确定>按钮,完成删除报表模板操作。
(1) 输入报表上要显示的厂商信息,有效长度为1-64。
(2) 单击<确定>按钮,完成报表显示厂商设置。
可以基于报表模板按照一定的频率统计数据并自动生成周期性的报表文件。
目前支持的统计周期包括:天、周、月、季度、半年和年。
· 简单查询
a. 在页面右上角查询文本框中输入周期报表名称,支持模糊查询。
b. 点击“查询”图标,符合条件的周期报表会显示在列表中。
· 高级查询
a. 点击页面右上角查询文本框右侧的高级查询图标,展开高级查询区域。
b. 根据实际需求设置查询条件。
c. 单击<查询>按钮,符合条件的周期报表会显示在列表中。
单击<增加>按钮,进入增加周期报表页面。
点击周期报表对应的历史报表图标,进入历史报表页面。
点击周期报表的名称链接,进入周期报表详细信息页面。
点击周期报表对应操作列的修改图标,进入修改周期报表页面。
点击周期报表对应操作列的“挂起/恢复”链接,可对周期报表进行挂起/恢复操作。
(2) 单击<确定>按钮,完成删除周期报表操作。
首页通过图示的方式向用户展示数据中心分析组件的运行信息。
首页通过图示的方式向用户展示数据中心的运行信息。首页展示12种信息,包括设备健康、设备列表、设备详情、设备光模块健康、Fabric概览、故障监控、物理拓扑、故障列表、应用健康、应用异常会话分布、应用异常会话列表和异常会话详情。
数据中心网络概览如图7-1所示。
下面介绍首页所有展示信息的具体概念。
· 设备健康
展示系统中被纳管的总设备数量以及异常设备数量,并根据Spine、Leaf、Other分类统计网络健康度为好、一般、差的设备数量。
¡ 正常设备百分比:展示正常运行的设备百分比。
¡ 设备数:系统纳管的组网中的总设备数。
¡ 异常设备数:系统纳管的组网中的异常设备数,网络健康度为一般或差的设备为异常设备。
¡ 环形图:系统中各类设备的健康度得分分布,环形图30秒轮播一次, 设备列表随着联动。
· 设备列表
展示“设备健康”区域中所轮播到的设备角色的健康度得分最低的3个设备的列表。
· 设备详情
展示“设备列表”区域中所轮播到的设备的当前健康评分和历史健康评分趋势,轮播周期10秒。
· 光模块健康
展示“设备列表”区域中所轮播到的设备中的光模块健康评分分布,展示评分最低的6个光模块。
· Fabric概览
展示所有的Fabric以及其中的设备会话信息:Fabric数量,设备数量,异常设备端口数量,总会话流量,平均时延,最大时延和建连数。
· 故障监控
展示当前系统中按设备、网络、协议、Overlay和业务分类后的故障信息。其与物理拓扑1分钟轮播一次,也可以单击该功能区域中下方的切换按钮进行切换。
· 物理拓扑
展示当前系统中所有网络设备(如交换机、路由器等)的逻辑连接关系,通过使用拓扑图的方式直观的展示。其与故障监控1分钟轮播一次,也可以单击该功能区域中下方的切换按钮进行切换。
· 故障列表
展示系统中用户未手动处理的问题列表。
· 应用健康
展示系统分析的总应用数、异常应用数以及正常应用百分比,并且展示系统中健康度得分最低的6个应用。
¡ 正常应用百分比:展示正常运行的应用在所有应用中的百分比。
¡ 应用数:系统分析的总应用数。
¡ 异常应用数:系统分析的异常应用数,应用健康度低于8的为异常应用。
¡ 卡片:展示系统中健康度得分最低的6个应用。卡片30秒轮播一次,同时异常会话分布和异常会话列表两部分随着联动。
· 异常会话分布
展示“应用健康”区域中所轮播到的应用的最近3小时的各类异常会话分布。
· 异常会话列表
展示“应用健康”区域中所轮播到的应用的最近3小时的异常会话列表。会话列表10秒按会话序号向下轮播滚动一次,同时异常会话详情随着联动,依次展示列表第一条会话的详情信息。
· 异常会话详情
展示“异常会话列表”区域轮播到的列表第一条会话的源目的IP、源目的端口、协议和时延信息,展示会话的SYN事件的路径。
鼠标移动至如图7-2所示位置,单击<编辑>按钮,进入数据中心分析概览编辑页面。
图7-2 数据中心分析概览编辑按钮
数据中心网络概览编辑页面如图7-3所示,主要包含如下功能:
· 可视化大屏编辑器
· 图层
· 组件列表
· 页面配置
· 数据配置
(2) 在大屏列表页面左侧菜单栏单击按钮,在弹出的对话框中输入分组名称,单击<确定>按钮,创建分组。
(3) 单击<新增可视化>按钮,在弹出的对话框中输入大屏名称和映射地址,单击<确定>按钮,创建可视化大屏。
(4) 在新建可视化大屏区域可对大屏执行编辑、查看、克隆和还原等操作。
图7-4 创建大屏
(5) 单击“轮播大屏列表”页签,进入轮播大屏页面。
(6) 单击<新建轮播大屏>按钮,在弹出的对话框中配置名称、路径、动画效果和展示时长等参数。单击<确定>按钮,创建可视化大屏。
图7-5 新增轮播
(2) 选择任一图层,右键单击该图层,可对图层执行置于顶层、置于底层、上移一层、下移一层、导出、隐藏、重命名、收藏和删除图层操作。
图7-6 图层设置
(2) 组件列表支持配置多种组件,分别包括:图表组件、业务组件、图片组件、文字组件、时间组件、辅助组件、地图组件和收藏组件。
(3) 以配置基本柱状图为例,单击“基本柱状图”图标,页面右侧可进行组件设置,分为“配置”和“数据”两个页签。。
(4) 在“配置”页签可配置组件的图表、标题和边框等参数。在“数据”页签可配置组件的接口描述和数据源。
图7-7 组件设置
(2) 单击<添加区块>按钮,可在页面添加一个可编辑的区块。
(3) 鼠标悬浮至<切换主题>按钮上,可切换页面主题。
(4) 页面设置菜单可对屏幕大小、大屏标题、大屏背景、大屏封面进行参数配置。
图7-8 页面设置
(6) 全局数据配置菜单中可配置全局变量和数据响应结果。
图7-9 全局数据配置
通过该模块对各子系统模块进行巡检,并针对各个巡检项的实际结果给出处理建议,可以使技术维护人员充分了解系统运行的基本情况,为日常的系统网络、应用以及数据库的维护服务提供基本的参考数据,保障系统的平稳运行。
登录统一数字底盘页面,单击[分析>分析选项>全局配置]菜单项,单击“一键巡检”页签,进入一键巡检页面。
单击<配置检查项>按钮,可全选或按需选择对应的检查项,单击<确定>按钮保存配置,如图7-10所示。
单击<执行检查>按钮,等待1~2分钟检查完成后,在列表中找到执行的记录,单击<查看详情>图标,进入巡检结果详情页面,查看各巡查项详细的巡查结果。级别分为风险、异常、失败和正常。通常异常和失败务必要处理,风险项视情况处理,且给出处理意见供参考,如图7-11所示。
(1) 单击[分析>分析选项>全局配置]菜单项,单击“一键巡检”页签,进入一键巡检页面。
图7-12 一键巡检页面
操作员是系统及各业务组件的管理维护人员,不同操作员拥有不同的管理权限。具体功能如下:
· 对操作员进行增加、删除、修改、拷贝、配置角色,修改角色组、修改机构以及查询子机构等操作。
· 查看当前已登录的操作员信息。
· 定义除操作员基本信息和高级信息外,还可自行定义并进行管理维护其他信息,实现操作员信息的补充。
· 只有具有管理权限的操作员才可进行增加、删除、修改、拷贝操作,为操作员分配角色。
· Admin操作员不允许被删除,且不允许被修改角色组、不允许被修改所属机构。
(1) 单击[系统>操作员管理>操作员列表]菜单项,进入操作员列表页面。
(2) 单击<增加>按钮,在增加操作员页面可参考表8-1、表8-2进行相关配置。
图8-1 增加操作员
参数 |
说明 |
操作员名称 |
· 操作员登录系统的帐户名。 · 输入长度限制可配置,可在“系统 > 系统配置 > 安全配置 ” 操作员名称配置中配置名称的长度。 · 输入字符不可配置,只能包含字母、数字、“_”、“-”、“.”、“\”。 · 不区分大小写。 · 不得为空。 · 创建后不可修改,且不允许存在同名操作员。 |
租户 |
· 操作员绑定的租户信息。 · 不得为空,不允许修改。 · 支持搜索。 · 可选范围为当前登录操作的所在租户及其子租户。 |
机构 |
· 操作员绑定的机构信息。 · 需先选择租户。 · 可选范围为当前登录操作员所属机构及子机构或子租户下的全部机构。 · 不得为空。 |
角色组 |
· 操作员所属的角色组,只有设置了角色组,操作员才有权限对系统进行相应的操作。 · 需先选择租户。 · 可选范围为已选租户下的所有角色组。 · 不得为空。 |
认证方式 |
· 操作员登录时使用的认证方式。 · 可选值只有简单密码认证,RADIUS认证、LDAP认证、TACACS认证以及第三方认证。 · 不得为空。 · 若选择简单密码认证,则使用“操作员名称”登录,且必须输入登录密码和登录密码确认。 · 若选择“RADIUS认证”、“LDAP认证”或“TACACS认证”,则需要在“系统 > 系统配置 > 认证配置”页面配置认证服务器。 · 若选择“第三方认证”,则需要在“系统 > 系统配置 > 认证配置”页面配置第三方认证或通过第三方定制化开发登录,操作员高级信息中的最大同时在线数不可配置,默认不限制最大同时在线数。 |
登录密码 |
· 若认证方式选择简单密码认证,则出现登录密码输入框。 · 登录密码的输入限制可配,可在“系统 > 系统配置 > 安全配置 ”中的操作员密码策略配置中配置密码的长度和强度校验。 · 若认证方式选择简单密码认证,则登录密码不得为空。 |
登录密码确认 |
· 登录密码再次确认输入。 · 不得为空。 · 不限制输入,需与登录密码输入字符相同方可通过校验。 |
手机号 |
· 操作员的手机号。 · 选填,长度为11位。 · 若使用双因子认证的短信认证功能或忘记密码的手机号方式重置密码功能,则手机号不能为空。 |
邮箱 |
· 操作员的邮箱。 · 选填。长度小于255个字符。 · 若使用双因子认证的Google动态口令认证功能或忘记密码的邮箱方式重置密码功能,则邮箱不能为空。 |
参数 |
说明 |
允许登录时间段 |
· 允许操作员登录的时间段,不在登录时间段内操作员无法登录系统。 · 可选值为00:00-23:59。 · 最小刻度为分钟。 |
密码有效期 |
密码有效期到期之后,该操作员登录后将被强制要求修改密码。 |
提前预警时间 |
· 密码有效期剩余天数达到预警天数时将发送Trap告警并且每次登录会以弹出框方式提醒操作员,操作员修改密码之后,需要在告警页面手动恢复告警。 · 开启密码有效期后,不得为空,默认值为10,输入范围为0-99999的整数。 |
帐户有效期 |
帐户有效期到期后,该操作员会被禁用,无法登录。 |
帐户到期提前预警时间 |
· 帐户有效期剩余天数达到预警天数时将发送trap告警并且每次登录会以弹出框方式提醒操作员,操作员修改帐户有效期之后,需要在告警页面手动恢复告警。 · 开启帐户有效期后,不得为空,默认值为10,输入范围为0-99999的整数。 |
最大同时在线数 |
· 配置该操作员的最大同时在线数量,当同时在线数等于该值时,该操作员下次登录请求会被禁止。 · 0表示该操作员不限制最大同时在线数。 · 输入范围为0-999的整数。 |
(3) 单击<确定>按钮,完成增加操作员操作。
(4) 在操作员列表页面,单击<查询子机构>按钮,操作员列表将刷新,加载子机构操作员。
(5) 勾选一个或多个操作员复选框后单击<更多操作>按钮,可进行如下操作:
¡ 在下拉框中选择“配置角色”,可在配置角色页面中,为指定的操作员修改角色。
¡ 在下拉框中选择“修改角色组”,可在弹出的对话框中为指定的操作员修改角色组
¡ 在下拉框中选择“修改机构”,可在弹出的对话框中选择机构。
(6) 在操作员列表页面,单击指定操作员“操作”栏,可进行如下操作:
¡ 单击按钮,将通过复制该操作员信息的方式新增操作员,简化用户操作步骤。
¡ 单击按钮,可删除指定操作员。Admin操作员不允许删除。
¡ 单击/
按钮,可禁用/启用指定的操作员。被禁用的操作员无法登录。
图8-2 操作员列表
(1) 单击[系统>操作员管理>在线操作员]菜单项,进入在线操作员页面。
(2) 该页面可查看当前已登录的操作员信息,包括操作员名、会话ID、登录时间、闲置时长等信息。
(3) 单击指定操作员“操作”栏的按钮,可强制下线该操作员。
图8-3 在线操作员
(1) 单击[系统>操作员管理>操作员附加信息]菜单项,进入操作员附加信息页面。
(2) 单击<增加>按钮,在增加操作员附加信息页面,可参考表8-3进行相关配置。
图8-4 增加操作员附加信息
参数 |
说明 |
操作员附加信息 |
操作员附加信息是指除了操作员基本信息和高级信息以外,可以自行定义并进行管理维护的其他信息,实现了操作员信息的补充。操作员附加信息增加成功后,可以在操作员详细信息页面进行查看。 |
字段名 |
操作员附加信息字段的名称。 |
字段性质 |
选择该字段是否为必填项。 · 不能为空:该字段为必填项,必须配置缺省值,字段类型为“通过选择框输入数据”时只能选择”不能为空“。 · 可以为空:该字段不是必填项,可以不配置缺省值。 |
字段类型 |
字段类型支持五种选择: · 整数:需要配置字段的最大允许值和最小允许值,即字段的输入范围。 · 小数(小数点后不超过五位):需要配置字段的最大允许值和最小允许值,即字段的输入范围。 · 字母、数字或字符{-_.@}:需要配置最大字符长度,即字段的有效长度。 · 任意字符:需要配置最大字符长度,即字段的有效长度。 · 通过选择框输入数据:需要增加至少一个选择项。 |
· 最大允许值 · 最小允许值 |
选择字符类型为“整数”和“小数”时必填。 · 若字段类型选择“整数”,则该值的范围为-2,147,483,648至2,147,483,647。 · 若字段类型选择“小数”,则小数点后不超过五位。 |
最大字符长度 |
· 选择字符类型为“字母、数字或字符{-_.@}”和“任意字符”时必填。 · 该值必须是整数类型,且值在1到127之间。 |
输入选择项 |
· 选择字符类型为“通过选择框输入数据”时填写。 · 长度不得大于128个字符。 |
已有选择项 |
· 选择字符类型为“通过选择框输入数据”时展示。 · 已有选择项中的值来自输入选择项的增加操作,可以对已有选择项中的值进行修改、删除、上移、下移和配置缺省值。 |
缺省值 |
· 数字类型时,该值必须在最大值与最小值之间。 · 字符类型时,该值不能超过最大字符长度。 · 如果是通过选择框输入数据,该值只能包含已有选项中的值。 |
(3) 单击<确定>按钮,完成增加操作员附加信息的操作。
(4) 在操作员附加信息页面,可通过单击“显示顺序”栏的按钮,调整指定附加信息在列表中的顺序。
日志管理通过自动记录系统运行期间产生的操作日志、系统日志和运行日志,方便用户更好的了解系统内部信息。该模块还支持精细化过滤、导出日志和配置日志存储方式等功能。
操作日志用于记录用户或者在云平台的操作,包括增加、修删除,方便用户了解配置更改等事件。
(1) 单击[系统>日志管理>操作日志列表]菜单项,进入操作日志展示页面。
(2) 通过指定起止日期、用户名称、组织机构等信息,可以对日志进行精细化过滤。
图8-5 日志过滤
(3) 在操作日志列表中,可查看用户对系统的操作详情,并进行相关操作,具体如下:
¡ 勾选指定操作日志复选框后单击<导出>按钮,可以导出指定的操作日志。
¡ 单击<导出>按钮,将导出所有操作日志,支持导出使用搜索功能(含高级搜索)筛选出的日志。
¡ 查看操作时间、用户名称、操作结果、操作描述等信息,若对某事件操作失败,可以在“失败原因”栏查看详细原因。
图8-6 操作日志列表-查看失败原因
系统日志用于记录系统内部事件。系统日志分为如下级别:调试、提示、关注、警告、错误、严重、告警、致命,用户可根据日志严重程度,对其进行相关处理。
(1) 单击[系统>日志管理>系统日志列表]菜单项,进入系统日志展示页面。
(2) 通过指定组件名称、起止时间、节点名称等信息,可以对日志进行精细化过滤。
图8-7 日志过滤
(3) 在系统日志列表中,可查看系统的内部信息,并进行相关操作,具体如下:
¡ 勾选指定系统日志复选框后单击<导出>按钮,可以导出指定的系统日志。
¡ 单击<导出>按钮,将导出所有系统日志,支持导出使用搜索功能(含高级搜索)筛选出的日志。
¡ 可对勾选的日志进行标记操作。当用户已了解该信息时,可将其标记为已知,此时该日志信息将被置灰。
图8-8 系统日志列表-标记已知
运行日志用于记录系统运行过程中的各种状态信息。当系统发生异常时,便于技术工程师迅速的定位故障信息。
运行日志分为全局日志和各节点的日志,全局日志中所有日志信息存储在共享存储服务器,节点日志中的日志信息存储在各节点所在服务器。
(1) 单击[系统>日志管理>运行日志列表]菜单项,进入运行日志展示页面。
(2) 通过指定目录(相对路径)、起止时间、文件或目录名称关键字等信息,可以对日志进行精细化过滤。
查询全局日志时,若指定的日志文件或压缩包名称不符合规范要求,该日志文件或压缩包将不根据时间搜索条件进行处理,该日志文件或压缩包将会直接出现在查询结果中。日志名称规范为:
· 按天归档的日志名称格式为:Pod名称.YYYY-MM-DD.log或Pod名称.YYYY-MM-DD.log.zip,例如imf-itom-logconsumer-dm-778db966db-hq86w.2020-07-13.log、imf-itom-logconsumer-dm-778db966db-hq86w.2020-07-13.log.zip。
· 按周归档的日志压缩包名称格式为:UserDefined_YYYY-WW_Num.log.zip,其中UserDefined为用户自定义输入,支持数字和字母,区分大小写,Num为指定年指定星期的第几份日志,例如diag_2020-02_1.log.zip。
图8-9 日志过滤
(3) 在运行日志列表中,可查看系统的运行信息,并进行相关操作,具体如下:
¡ 勾选指定运行日志复选框后单击<导出>按钮,可以导出指定的运行日志。
¡ 单击<全选>按钮后,单击<导出>按钮,将导出所有运行日志,支持导出使用搜索功能(含高级搜索)筛选出的日志。
· 若日志文件为空时,日志文件大小为0MB;若日志文件大小不足0.01MB时,页面上会显示该文件大小为0.01MB。
· 当前导出全局日志任务正在进行时,不允许再次导出全局日志和节点日志。
该功能用于配置日志的存储天数、过期日志清理时间、发送级别等参数。
(1) 单击[系统>日志管理>日志配置]菜单项,默认进入操作日志配置页面。
(2) 该页面分为日志存储配置和日志服务器配置两个区域,可参考表8-4进行相关参数配置。
图8-10 操作日志配置
参数 |
说明 |
发送级别 |
日志发送级别从低到高依次为:调试、提示、关注、警告、错误、严重、告警、致命,设置发送级别后,高于或等于该级别的日志将会发送到日志服务器。 |
(3) 配置完成后,单击<应用>按钮完成此操作。
(1) 单击[系统>日志管理>日志配置]菜单项,进入日志配置页面。
(2) 单击“系统日志”页签后可进入系统日志配置页面。该页面分为日志存储配置和日志服务器配置两个区域,可参考表8-5进行相关参数配置。
图8-11 系统日志配置
参数 |
说明 |
日志匹配规则 |
· 配置方式:单击<增加日志匹配规则>按钮,在弹出的对话框中可以配置节点名称、级别等信息。 · 说明:匹配规则配置完成后,后续产生的日志将按顺序匹配规则,匹配成功的日志将会发送到日志服务器。 · 满足下列所有匹配条件的日志才会匹配成功: ¡ 除级别、描述信息外的其他信息都为完全匹配,即日志的对应信息和匹配规则完全一致。 ¡ 日志的描述信息需包含规则中的描述信息。 ¡ 日志级别高于或等于规则中的级别。 |
(3) 配置完成后,单击<应用>按钮完成此操作。
(1) 单击[系统>日志管理>日志配置]菜单项,进入日志配置页面。
(2) 单击“运行日志”页签后可进入运行日志配置页面。
(3) 该页面分为全局日志配置和节点日志配置两个区域,这两个区域均可参考表8-6进行相关参数配置。
图8-12 运行日志配置
参数 |
说明 |
日志存储天数 |
系统会每天清除超过存储天数的日志。 |
· 占用的最大磁盘空间 · 自动清除时保留的百分比 |
· 系统会每小时检测全局日志/节点日志占用的磁盘空间,如果全局日志/节点日志占用的磁盘空间超过页面设置的“占用最大磁盘空间”,则会自动清除全局日志/节点日志。 · 当配置的最大磁盘空间值超过全局日志/节点日志所在磁盘分区大小的80%时,则按全局日志/节点日志所在磁盘分区大小的80%作为占用的最大磁盘空间,进行全局日志/节点日志自动清除。 |
(4) 配置完成后,单击<应用>按钮完成此操作。
License即授权,指新华三技术有限公司授予用户使用特定软件功能的合法权限。
产品需要通过License授权的软件功能以及License授权的相关属性,请参见产品配套的《H3C AD-NET&U-Center 2.0方案License支持情况说明》。
H3C网站提供License的激活申请、设备授权迁移申请等功能:http://www.h3c.com/cn/License
有关License申请、激活文件安装、License迁移等操作的使用指导及详细信息,请参见《H3C 软件产品远程授权 License使用指南》。
通过远程授权方式安装License时,需要先下载并安装H3C License Server软件:
· 单击如下链接可获取H3C License Server的软件包:
· 单击如下链接可获取H3C License Server的配套资料:
在License Server上安装产品的授权后,只需在产品的License管理页面与License Server建立连接即可获取授权,操作步骤如下:
(1) 登录统一数字底盘,单击[系统>License管理>License信息]菜单项,进入License信息管理页面。
(2) 在页面中配置License Server信息的参数。各参数介绍请参见表8-7。
图8-13 License Server信息页面
参数 |
说明 |
IP地址 |
安装License Server的服务器上用于数据中心分析组件集群内各节点之间通信的IP地址 |
端口号 |
此处缺省值为“5555”,与License Server授权服务端口号保持一致 |
客户端名称 |
License Server中设置的客户端名称 |
客户端密码 |
License Server中设置的客户端名称对应的密码 |
(3) 配置完成后,单击<连接>按钮与License Server建立连接,连接成功后数据中心分析组件可自动获取授权信息。
125x设备无法通过控制组件下发远程镜像配置时,需要手动配置,配置过程示例如下:
(1) 创建业务环回组
service-loopback group 1 type tunnel
(2) 将接口加入到环回组中,注意:端口加入环回组后,所有配置都会清除
interface FortyGigE 1/4/0/1
port service-loopback group 1
All configurations on the interface will be lost. Continue?[Y/N]:y
(3) 创建gre隧道,找一个空闲的隧道ID,源IP使用Loopback0的IP(或带内三层可达IP即可),目的IP为采集器采集网卡的IP地址,或采集器浮动IP地址
interface Tunnel1 mode gre
source loopback0
destination 192.8.0.1 #(采集器采集网卡IP地址或采集器浮动IP地址)
(4) 创建镜像监控组,并指定监控端口为上述创建的隧道口
monitoring-group 1
monitoring-port Tunnel 1
(5) 创建ACL规则,规则可根据实际需要配置
acl advanced name erspan_global_acl
rule 0 permit tcp syn 1
rule 5 permit tcp fin 1
rule 10 permit tcp rst 1
(6) 创建流分类,关联ACL规则,匹配方式需要根据现场情况进行配置
traffic classifier cls_erspan
if-match acl name erspan_global_acl inner
if-match vxlan any
(7) 配置流动作,指向上述创建的监控组
traffic behavior be_erspan
mirror-to monitoring-group 1
(8) 创建qos策略,关联上述流分类和流动作
qos policy erspan
classifier cls_erspan behavior be_erspan
(9) 应用qos策略
qos apply policy erspan global inbound
(10) 查看qos策略
dis qos policy global
Direction: Inbound
Policy: erspan
Classifier: cls_erspan
Operator: AND
Rule(s) :
If-match acl name erspan_global_acl
Behavior: be_erspan
Mirroring:
Mirror to monitoring group 1
开启指定接口的内部环回功能。
(1) 进入接口视图。
[sysname] interface interface-type FortyGigE 1/4/0/1
(2) 开启当前接口的内部环回功能。
[sysname-FortyGigE1/4/0/1] telemetry ifa loopback
(3) 退回系统视图。
[sysname-FortyGigE1/4/0/1] quit
· 配置主节点
(1) 配置通过PTP协议获取系统时间
[Sysname] clock protocol ptp
(2) 配置PTP协议标准
[Sysname] ptp profile 1588v2
(3) 配置时钟节点类型
[Sysname] ptp mode bc
(4) 配置设备所属的PTP域
[Sysname] ptp domain 0
(5) 配置时钟优先级
[Sysname] ptp priority clock-source local priority1 0
(6) 在连接的接口上开启PTP
[Sysname -Twenty-FiveGigE1/0/1]ptp enable
· 配置从节点
(7) 配置通过PTP协议获取系统时间
[Sysname] clock protocol ptp
(8) 配置PTP协议标准
[Sysname] ptp profile 1588v2
(9) 配置时钟节点类型
[Sysname] ptp mode bc
(10) 配置设备所属的PTP域
[Sysname] ptp domain 0
(11) 在连接的接口上开启PTP
[Sysname -Twenty-FiveGigE1/0/1]ptp enable
· 配置目标组时,IP地址是南向被动采集的虚IP地址,端口号50051。如果设备到分析组件的接口绑定了vpn实例,需要在目标组的采集器地址后面追加vpn-instance参数,否则不需要。
· 非事件类采集周期建议按照1分钟配置,有具体展示精度要求的可以动态调整采集周期。
控制组件支持下发gRPC配置。gRPC用于采集设备上的数据。
(1) 添加采集器
在[分析>采集配置>Telemetry>采集器]页面,增加采集器:
IP地址为192.168.16.100(南向单协议时,南向被动采集虚IP;南北向网络合一时,北向业务虚IP),端口号为50051,用于设备通过gRPC方式上送数据,例如CPU、内存、接口信息,缓存队列等数据。
图9-1 控制组件添加采集器gRPC
(2) 添加采集模板
在[分析>采集配置>Telemetry>gRPC]页面,选择采集模板页签,单击<修改>按钮,选择采集路径;默认推送周期配置为60s。采集信息可根据需要修改,基础采集建议包括:设备信息、接口信息、错包统计、表项资源、变更分析,其他采集根据需要和设备支持情况选择性配置。
图9-2 gRPC采集模块
(3) 控制组件下发
使用控制组件下发时,可参考如下步骤:
a. 单击<修改>按钮:
图9-3 单击<修改>按钮
b. 勾选对应的采集路径,点击应用保存配置即可,示例如下:
图9-4 保存配置
c. 采集项请根据实际情况进行选择。
周期类采集,相同采集周期的建议配置在一个采集组中:
¡ 设备信息采集:
sensor path device/base //用于设备信息采集
sensor path device/boards //用于设备信息采集
sensor path device/extphysicalentities //用于设备信息采集
sensor path device/physicalentities //用于设备信息采集
sensor path device/transceivers //用于设备光模块采集
sensor path device/transceiverschannels //用于设备光模块采集
¡ 接口信息采集:
sensor path ifmgr/ethportstatistics //用于设备接口统计采集
sensor path ifmgr/interfaces //用于设备接口采集
sensor path ifmgr/statistics //用于设备接口统计采集
¡ 设备缓存监控信息(可选):
sensor path buffermonitor/bufferusages //用于buffermonitor数据采集
sensor path buffermonitor/commbufferusages //用于buffermonitor数据采集
sensor path buffermonitor/commheadroomusages //用于buffermonitor数据采集
sensor path buffermonitor/ecnandwredstatistics //用于buffermonitor数据采集
sensor path buffermonitor/egressdrops //用于buffermonitor数据采集
sensor path buffermonitor/ingressdrops //用于buffermonitor数据采集
sensor path buffermonitor/pfcspeeds //用于buffermonitor数据采集
sensor path buffermonitor/pfcstatistics //用于buffermonitor数据采集
¡ 表项资源采集:
sensor path resourcemonitor/monitors //用于表项资源采集路径,替代Netconf采集
sensor path resourcemonitor/resources //用于表项资源采集路径,替代Netconf采集
¡ 变更分析采集:
sensor path route/ipv4routes //用于变更分析相关表项采集路径
sensor path route/ipv6routes //用于变更分析相关表项采集路径
sensor path lldp/lldpneighbors //用于变更分析相关表项采集路径
sensor path mac/macunicasttable //用于变更分析相关表项采集路径
sensor path arp/arptable //用于变更分析相关表项采集路径
sensor path nd/ndtable //用于变更分析相关表项采集路径
¡ 以下路径可支持增量上报,建议使用增量上报方式。变更分析全量上报与增量上报的sensor path不需要重复配置,如果配置了增量方式上报,则无需再配置全量方式,相关路径根据设备支持情况而定。采集周期建议配置为3600s。
sensor path arp_event/arptableevent //用于变更分析相关表项采集路径,增量上报
sensor path mac/overlaymacevent //用于变更分析相关表项采集路径,增量上报
sensor path mac/underlaymacevent //用于变更分析相关表项采集路径,增量上报
sensor path nd/ndtableevent //用于变更分析相关表项采集路径,增量上报
sensor path route_stream/ipv4routeevent //用于变更分析相关表项采集路径,增量上报
sensor path route_stream/ipv6routeevent //用于变更分析相关表项采集路径,增量上报
¡ 事件类采集(可选):
sensor path buffermonitor/portquedropevent //队列丢包告警
sensor path buffermonitor/portqueoverrunevent //队列超限告警
sensor path tcb/tcbpacketinfoevent //用于TCB采集路径
sensor path telemetryftrace/genevent //用于MOD数据采集路径
(4) 手动配置
采集路径参考上述控制组件下发路径,根据实际需要进行选择配置。具体配置过程举例说明说如下,配置中采集组、目标组、订阅的名称可自定义:
全局配置:
[Device] Grpc enable //使能grpc
· 创建周期类采集:
[Device] telemetry //进入telemetry视图
[Device-telemetry] sensor-group group_grpc //创建采集组
[Device-telemetry-sensor-group-group_grpc] sensor path device/base //添加采集路径
[Device-telemetry-sensor-group-group_grpc] sensor path device/boards //添加采集路径
[Device-telemetry-sensor-group-group_grpc]
destination-group destination_grpc //创建目标组
[Device-telemetry-destination-group-destination_grpc]
ipv4-address 192.168.16.100 port 50051 vpn-instance mgmt //目标组地址、端口,是否添加vpn,根据实际组网配置
[Device-telemetry-destination-group-destination_grpc]
subscription subscription_grpc //创建订阅,关联传感器组和目标组
[Device-telemetry-subscription_grpc]
sensor-group group_grpc sample-interval 60 //关联传感器组,采集周期根据实际情况配置
[Device-telemetry-subscription_grpc]
source-address 192.168.12.23 //配置源地址,建议设备管理IP
[Device-telemetry-subscription_grpc]
destination-group destination_grpc //关联目标组
[Device-telemetry-subscription_grpc] quit
· 创建事件类采集:
[Device] telemetry //进入telemetry视图
[Device-telemetry] sensor-group group_grpc //创建采集组
[Device-telemetry-sensor-group-group_grpc]
sensor path tcb/tcbpacketinfoevent //添加采集路径
[Device-telemetry-sensor-group-group_grpc]
sensor path telemetryftrace/genevent //添加采集路径
[Device-telemetry-sensor-group-group_grpc]
destination-group destination_grpc //创建目标组
[Device-telemetry-destination-group-destination_grpc]
ipv4-address 192.168.16.100 port 50051 vpn-instance mgmt //目标组地址、端口,是否添加vpn,根据实际组网配置
[Device-telemetry-destination-group-destination_grpc]
subscription subscription_grpc //创建订阅,关联传感器组和目标组
[Device-telemetry-subscription-subscription_grpc]
sensor-group group_grpc //关联传感器组,事件类采集不需要配置周期
[Device-telemetry-subscription-subscription_grpc]
source-address 192.168.12.23 //配置源地址,建议设备管理IP
[Device-telemetry-subscription-subscription_grpc]
destination-group destination_grpc //关联目标组
[Device-telemetry-subscription-subscription_grpc]
quit
(5) 添加采集设备并关联采集器
在[分析>采集配置>Telemetry>gRPC]页面,选择采集设备并单击<增加>按钮,选择对应的设备及采集器,应用确认后配置可以下发到设备上。
图9-5 添加采集设备并关联采集器