H3C 终端智诊技术白皮书
Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
终端智诊是一种基于H3C云平台/WBC私有云的全新的智能运维功能,运维人员通过本功能对特定终端在某个时间点的状态进行诊断,并自动输出终端的问题和优化建议,以帮助运维人员精准定位故障根因,快速解决问题或对终端进行优化。终端智诊是一键式功能,能够将整体排障时间从小时级变为分钟级,排障效率提升90%,解决了传统智能运维中终端数据分散、缺乏终端在某一时刻全方面的体检报告和缺乏分析结论的不足。
终端智诊功能具有以下技术优势:
(1) 操作简单
一键即可进行诊断,简单易用,降低运维门槛。
(2) 诊断迅速
终端智诊应用知识图谱技术,得以高效查询诊断数据库,有效缩短诊断时长,每次诊断时间缩短到1分钟左右。
(3) 结论明确
终端智诊会给出明确的诊断结论,包含终端遇到的问题和针对性的解决方法。
(4) 数据整合展示
终端智诊将终端相关的数据在云平台的一个页面上整合呈现,还可以将诊断结果输出为智诊报告保存于本地,将无线终端的每个阶段进行数字化呈现,帮助运维人员快速高效的分析无线网络问题,解决了传统智能运维中,不同维度的数据分散在不同的页面,不利于运维人员诊断问题。
终端智诊应用知识图谱技术,实现数据库查询效率的大幅提升。知识图谱的概念如下:
知识图谱技术是一种利用图形结构化的方式来表示数据库中对象间关系的技术。它包括三个核心要素:实体、属性和关系。实体代表数据库中的具体数据,属性描述实体的特征,关系表示实体之间的关联。知识图谱技术通过结构化的方式构建数据库,使得计算机可以理解和推理数据间的关系。它可以用于构建包括实体、概念、事件和关系在内的全面的知识网络,从而支持语义搜索、自然语言处理、智能推荐和智能诊断等领域的应用。
无线网络搭建好后,可以在终端智诊功能,诊断和分析某时间点终端的运行状态。
具体工作机制如下:
(1) 开启诊断
AC或者云AP设备已在云简/WBC设备纳管,在智能运维页面输入终端的IP/用户名/MAC,选择故障时间点,一键开始终端智诊。可以诊断的故障时间点为两周以内。
(2) 形成数据库
云平台收集故障时间点20分钟左右的终端连接分析、终端运行数据、空口环境、设备配置及运行状态、设备操作记录和设备软件信息共6个维度的诊断数据,并建立终端智诊数据库。诊断数据包含设备定期上报至云平台的数据和用户在云平台进行操作留下的记录。利用数据图谱技术,数据库中的数据会交叉形成3000余个诊断项供系统分析。
(3) 系统分析
终端智诊系统分析后输出终端遇到的问题。共分为5个大类50余种问题,同时提供120余种配套解决方案。问题大类如下:
¡ 单终端问题:表示只涉及当前终端的问题。
¡ 非单终端问题:表示除当前终端外,同环境下其他终端也出现的问题。
¡ 偶发性问题:一定时间内偶尔发生的问题。
¡ 持续性问题:一定时间内持续发生的问题。
¡ 配置问题:设备配置错误导致的问题。
请重点关注结论中的非单终端问题和持续性问题,这代表了无线网络出现了大面积或持续时间长的问题。
(4) 诊断报告
终端智诊输出诊断报告,包含诊断期的数据、系统的分析项和得出的结论。运维人员依据诊断报告的结论判断是终端故障还是网络故障,并依据建议进一步进行故障恢复操作。
(5) 更新配置
诊断是基于设备在故障时间点的配置进行的,如果修改了设备的配置,导致诊断结论与设备最新的配置对应不上,可以通过本功能基于最新配置自动更新诊断结论。更新配置的原理为:开启诊断后,形成数据库的过程中,云平台会缓存故障时间点20分钟左右的设备配置,以避免频繁读取设备配置影响性能。缓存的老化时间为3天。本功能使云平台缓存设备最新配置。
(1) 终端智诊页面,输入终端的IP/用户名/MAC、故障时间点,然后开始诊断。
图1 开始诊断
(2) 诊断历史详情
诊断历史可以查看本次诊断的状态,也可以查看历史诊断的报告,且支持导出已诊断完成的报告。
图2 查看诊断历史
在终端智诊页面查看终端智诊报告,共包含如下3个部分:
(1) 概览数据
终端的概览信息。包含支持频段、认证方式、信号强度、丢包率、选速最小值、重传率、关联AP数和结论数。
图3 概览数据
(2) 智诊结论列表
诊断的结论。详细列出终端遇到的问题,包含问题出现的时间点、问题的具体描述、参考因素(即得出结论所依据的数据)以及修复问题的建议。
图4 智诊结论列表
(3) 分析项
支撑诊断结论的具体数据。详细罗列设备软件信息状态、云平台操作记录、设备运行状态、终端连接过程、终端运行状态和空口环境分析6大维度的诊断数据。具体如下:
a. 设备软件信息状态
显示终端在诊断期间内关联过的AC和AP的软件信息状态。
图5 设备软件信息状态
b. 云平台操作记录分析
显示云简下发关于终端关联过设备的配置记录,呈现如无线服务和射频等关键配置变更。
图6 云平台操作记录分析
c. 设备运行状态分析
检查终端关联过的设备的运行信息,如CPU、内存等。
图7 设备运行状态分析
d. 终端连接过程分析
检查终端的上线过程、DHCP过程、ARP过程、DNS过程是否正常。
图8 终端连接过程分析
e. 终端运行状态分析
检查终端的运行数据,如信道利用率、干扰、信号强度、流量、时延、丢包率、重传率、选速的状态是否正常。
图9 终端运行状态分析
f. 空口环境分析
包含终端关联AP的信号强度、AP负载的终端数、流量、信道利用率、干扰、底噪、丢包率、重传率、广播组播报文数占比。
图10 空口环境分析
完成智诊后,云平台支持在线查看历史诊断报告,和将报告以PDF文件形式保存于本地。智诊报告分为精简版和详细版两种,在仅需要查看结论和建议的场景下选择精简版,在需要查看为结论提供依据的数据时选择详细版。两种报告包含的内容具体如下:
(1) 精简版报告:包含概览和智诊结论列表。
图11 精简版报告
(2) 详细版报告:包含概览、智诊结论列表和全部分析项。
图12 详细版报告
FitAP+AC组网示意图如图13所示。AC管理Fit AP,客户端通过Fit AP接入无线网络,将AC注册在云平台上,通过云平台终端智诊功能对高峰期无线网络进行优化。
诊断结论为:
· 结论1:持续性问题,AP 1的Radio 1的广播组播报文占比高。
· 结论2:持续性问题,AP 1的Radio 1的信道利用率高。
· 结论3:单终端问题/持续性问题:Client 1选速偏低。
处理建议为:
· 结论1的建议:配置二层隔离和用户隔离功能,将有线用户和无线用户的VLAN隔离开来。
· 结论2的建议:进行用户限速或调整AP部署位置。
· 结论3的建议:重启终端+升级网卡驱动。
结合实际情况按照建议处理,再次诊断后不再存在如上问题。
图13 FitAP+AC组网示意图
云AP组网示意图如图14所示。客户端通过云AP接入无线网络,将云AP注册在云平台上,通过云平台终端智诊功能对高峰期无线网络进行优化。
诊断结论为:
· 结论1:持续性问题,AP 1的Radio 1的广播组播报文占比高。
· 结论2:持续性问题,AP 1的Radio 1的信道利用率高。
· 结论3:单终端问题/持续性问题:Client 1选速偏低。
处理建议为:
· 结论1的建议:配置二层隔离和用户隔离功能,将有线用户和无线用户的VLAN隔离开来。
· 结论2的建议:进行用户限速或调整AP部署位置。
· 结论3的建议:重启终端+升级网卡驱动。
结合实际情况按照建议处理,再次诊断后不再存在如上问题。
图14 云AP组网示意图