国家 / 地区
docurl=/cn/Technical_Service/Home/News_Info/202011/1358168_275047_0.htm

互联网技术详解 | 运维工程师的福音—网络可视化方案(三)

【发布时间:2020-11-20】

书接上回,我们在之前的文章中详细探讨了网络可视化相关技术在1.0和2.0时代的发展路径,并详细介绍了网络可视化3.0技术在大象流老鼠流、MOD、TCB等三个方面的特性和具体应用、实现。那么本周,我们仍将继续网络可视化3.0的话题,继续深入挖掘其在仿真与遥测方面的技术应用。

可视化3.0——PacketTrace

随着数据中心的承载的业务种类越来越多,各类业务对实时性和可靠性要求越来越高,相应的我们对数据中心网络快速定位并解决问题的求也提高了。能否快速复现问题,提供深度的问题定位原因就成为了我们的诉求。举个例子,如下图:

PacketTrace问题定位流程

PacketTrace问题定位流程

上图中,左上为现网的拓扑,现在发现ServerA和ServerB发送到Internet的流量有丢包现象(通过可视化3.0的MOD功能得知),但要解决问题还要具体分析,如我知道是FIB-miss(报文因转发表没有相应条目而丢弃),但是具体是走到转发芯片的哪个模块丢了呢?是为何转发表项没有生成呢?是否有其他原因触发?这些怎么确认呢?最直接的办法就是通过在Switch上获取相应的现网流量报文后重新走一遍转发流程,基于当前问题情况进行反馈,这样收集到的数据才是最直接的并可以解决问题的数据,可以达到实验室模拟问题达不到的效果。这个办法就是PacketTrace。

PacketTrace作为一种维护性手段,在实现中主要通过平台配置构造报文,由驱动将报文模拟从某个接口进入设备并进行转发,最后确认该报文在设备中转发过程或丢包原因;同时,也可以便于技术人员了解不同报文在对应芯片中的转发过程,如下图:

PacketTrace实现过程

PacketTrace实现过程

PacketTrace分为4种模式:ICMP、UDP、TCP和RAW模式

发生问题时,客户可以在问题设备上获取相应丢弃报文,然后通过PacketTrace模板模拟,如报文格式为非TCP/UDP/ICMP格式,则可使用RAW进行配置,也就是全部bit手工编写。编写完成后,选择相应入接口执行下图第一行命令,进行探测。会得到相应反馈结果,如下图:

通过上述手段我们就能成功的复现现网环境问题,问题详细原因(具体到Pipeline的模块)也可以第一时间发送给研发进行分析。修改问题后,还可以通过相同的办法进行确认,岂不美哉?在DevOps流行的今天,你真的不想要吗?

讲了这么多可视化3.0的特性,可能还有的小伙伴想问新华三还有什么增强型的特性吗?

当然有!

可视化3.0——硬件Telemetry Stream

Telemetry Stream的需求背景就不详细介绍了,来源和INT大致相同,有兴趣的小伙伴可以看一下网络可视化系列的第一篇文章《网络可视化,网络工程师们的福音》。

Telemetry Stream 是一项从设备上采集数据的网络监控技术。设备主动向采集器上送采集数据,提供实时、高速的数据采集功能,达到对网络设备的性能及网络运行情况进行监控的目的。

Telemetry Stream与INT技术类似,不同的是Telemetry Stream无需组网配置,仅在需要采集数据的设备上单独配置即可。这里我来介绍一下Telemetry Stream的工作流程,以下图中的DeviceB为例:

Telemetry Stream测试组网图

Telemetry Stream测试组网图

流量在DeviceB的入接口通过ACL对原始报文进行筛选,命中规则的报文被复制、采样至设备内部的Telemetry Stream处理器。

Telemetry Stream处理器将报文环回至入接口。

DeviceB的入接口识别出本机环回报文,对其加采集信息,查表转发至出接口。

出接口识别出本机环回报文,对其添加采集信息,发给Telemetry Stream处理器。

Telemetry Stream处理器对其添加采集器地址和端口的报文头,然后该报文通过寻址上送至采集器。

多台设备均各自向采集器上报数据,采集器就可以采集到某条特定流所经过的所有设备的采集信息。虽然镜像报文与原始报文不是在同一时刻进入/离开设备,但所经历的转发流程是相同的,所以根据其中携带的时间戳计算出来的时延,即可代表原始报文所经历的时延。

说到这里,大伙可能会问Telemetry Stream和INT到底有何不同,那就容我详细对比一下,如下图:

Telemetry Stream和INT对比分析

Telemetry Stream和INT对比分析

基于硬件的Telemetry Stream功能,首先比INT在性能上大幅提升,流量可以1:1全额上送,全硬件均能达到线速上送的能力;

无需整网均支持Telemetry Stream能力,增加了组网设备的灵活度;

每节点上送相同报文采集信息可以定位端到端的问题,但需要采集器和整网设备做NTP或PTP同步,保证各自设备时间戳一致

讲了这么多,可视化3.0的关键特性基本都介绍了一遍,详细大家已经对新华三可视化3.0的能力有了全面的了解,get到了新华三网络可视化方案的先进性。那么在此大家可能还会有提问,就是新华三的可视化5.0方案又能有什么亮点呢?

可视化5.0——对未来保持期待

之前我们基本用了3篇文章的篇幅详细阐述了新华三可视化3.0的关键特性,那么,这里我们就来展望一下可视化5.0未来的样子,首先让我们再来看一下我们的可视化进化图:

可视化进化图

可视化进化图

相对于2.0时代,可视化3.0主要做到了深度的报文检测和流量转发优化,现网问题的模拟复现,带内Telemetry的模式和性能提升等;这些特性主要提升了网络管理在主动性,高效和感知等三个方面的表现。同时,结合新华三的SNA先知网络架构,企业便可构建一套的网络运维体系,能做到网络可视化和网络自优化。但我们究极的目标不应仅限于此。

在未来,智能感知,智能探测,隐私保护等诉求将被放到前台,结合Comware V9容器化操作系统能力的网络自主化设备将应运而生,芯片可编程等一系列能力将落地于新华三的设备上。通过分析器动态AI进行网络赋能,编排器连接上层纷繁的应用,结合设备侧的智慧能力,企业就能够获得一套完全自学习、自配置、 自优化、自诊断、自恢复的网络架构将;网络管理与运维效率也将获得质的提升,对应的成本和工作量压力也将大幅减小。

为了这样一个未来能够尽快到来,新华三将携手产业上下游和生态力量为此而努力,乘风破浪,共同前行,为网络技术的发展和更先进的用户体验而努力。

接下来,我们还会就网络运维管理的其他问题展开技术层面的硬核讨论,敬请期待。

联系我们 联系我们
联系我们
回到顶部 回到顶部