国家 / 地区
docurl=/cn/Solution/TechnologySolution/InterConnect/Internet/Solution/201712/1054914_30004_0.htm

绿洲无线云运维解决方案

【发布时间:2017-12-28】

对于IT运维人员来说,无线运维有三大烦恼:第一,网络故障难以重现,很多时候网络使用者反映网络问题,需要到现场反复确认,而且很多问题由于无法重现当时情景,导致无法及时得到处理,从而影响用户体验和服务效率;第二,难搞的网优参数,无线网的优化相对来说复杂,涉及许多层面的知识,同时诸如功率、信道规划,效果验证难度大,其他优化参数更是专业复杂,对于一般运维人员来说上手比较难;第三,难写的报告,一般企业的IT部门都需要阶段性输出网络简报,而网络体验数据难以收集和展现,很多时候,单凭文字描述很难达到预期效果,如果量化网络服务水平,直接关系到IT运维部门的工作绩效。

绿洲的无线云运维致力于提供专业的智能无线运维服务,帮助IT运维解决其烦恼。绿洲通过从设备收集无线运维各项指标,形成历史记录,尽可能全面的恢复历史故障点的故障画像,解决IT运维难以复现网络问题现象的难题;通过收集到的历史各项指标,结合内置运维算法提供无线网络故障、网络优化解决方案,帮助IT运维拜托理解复杂的无线参数的难题;提供网络评分趋势图以及终端用户体验评分趋势图,以及各项运维指标的统计图表,帮助IT运维量化并图形化展示阶段性工作绩效。

 

多维数据、综合评分,无线网状态一目了然

首先,作为日常监控的重要参考,设备综合健康度评分,综合各类六大主要指标:上行剩余带宽、AP在线率、终端速率、安全评价、无线环境、系统健康度进行评估,并结合我司无线运维专家提供的分值转化模型,给出评分。

综合评分计算方式:

Ø 上行剩余带宽(权重0.3):以用户近7天的平均带宽为基准数据,根据当前使用带宽占基准带宽的比例加减分数;

Ø 终端速率(权重0.2):不存在低速终端5分,其他按照低速终端数/ap数比率加减分数;

Ø ap在线率(权重0.2):根据AP在线数占总AP数的比率评分;

Ø 系统健康度(权重0.1):AC设备信息中的 CPU使用率和内存使用率。以占用率60%为基准,算出的系统健康度分数越低;

Ø 无线环境(权重0.1):所有线下的ap设备当前所在信道的信道占用率情况,占用率高该项分值越低;

Ø 安全评价(权重0.1):根据获取wips检测的非法AP数和私接代理数评分。

其次,AP总数/在线总数,能通过饼图一目了然的查看当前掉线的AP数量占比,并可查询具体AP掉线情况。

除此以外,当前上下行带宽、按时间段筛选的流量趋势图、按时间段筛选的终端在线趋势图、CPU、内存使用率趋势图等指标也是日常运维的重要参考指标。

以用户体验为中心的运维

我们认为评价一套无线网络的好坏,最关键一点就是终端用户的使用体验。但以前使用体验都是停留在口头相传,网络质量总在变化,很难去应征某天的某个时刻某个终端在某个区域无线网络体验到底好不好。而事后定位也很难抓取到以前某个时刻的定位信息。因此,绿洲推出了无线用户体验中心。

该系统主要包含几个部分:

1) 以整个网络为单元,展示整网用户体验情况。

在每一个采样时刻,汇总整网所有终端的影响体验的几个指标(RSSI、协商速率、流量)进行计算,然后按照经验值划分优、良、差,在按照这三个维度计算所属终端数量。最后绘制出一天的终端体验趋势图。这个指标为运维者提供整网终端体验参考依据,如果某个时段红色条目占比很高,说明这个时刻大部分终端体验差,就需要排查一下网络问题,或者需要做些调优;而如果绿色比例很大,少量红色,证明少量终端体验差,运维人员可以进一步查看评分差的终端体验想请。

2) 当前时刻的终端体验详情

当发现某个或某几个终端体验不好时,就需要具体去查看这几个终端的指标。一方面是不是协商速率较低,终端有没有优先接入5G,其次是不是没有选择连接较近的AP。

a) 可以查看当前的终端指标:

b) 单个终端的历史指标更具有定位价值:

终端历史评分:

终端速率趋势图:

连接AP的历史轨迹:

3) AP详情分析

当终端自身情况排查完后,就该排查AP的问题了,通过终端详情,可以直接跳转到关联AP的详情页面。

AP指标页面中,可以查看AP的信道占用率,是否信道占用比高,干扰严重。

还是该radio内终端连接数高,出口带宽占比高。

如果都不是就要看下是不是AP运行异常,诸如有CPU繁忙,内存繁忙,甚至如果说长期内存使用率不断上涨,还有内存泄漏的可能。

终端行为分析

对使用网络的行为进行分析,可以了解到用户使用网络的喜好和行为,一方面从网络资源可以做调整,另一方面作为数据分析产品,可以为内部业务调整作参考。

1) 终端活跃度分析

多个时间维度展示客户端在线趋势,可以按照天、周、月查看历史趋势图。

提供终端按流量排行Top10,按在线时长排行Top10,以及终端信息明细列表等信息。

2) 终端访问分析

针对终端访问行为的统计分析情况,通过该指标可以了解终端访问最热的域名和应用。

在统计方式上,划分为按人次统计、按流量统计两种:

AP设备运维分析-AP掉线

AP掉线时有发生,有时候很快就再次上线了,就是中途断网一小会儿,虽然对于普通网络使用者没有太大的影响,但从高质量无线网络运维来讲,也是需要重视的问题。如下是该运维平台解决此类问题的一个思路:

首先,平台收集AP掉线历史记录,形成趋势图,方便运维人员宏观参考掉线情况。

其次经常掉线的如果就是某几个AP,那么就需要注意了,这几个AP是不是有软、硬件问题:

还可以整体查看下线原因统计如下,详情可以从设备日志查看

设备日志可查看

上述的指标以及方案可以满足日常运维所需,此外从绿洲可以读取设备日志,改日志为研发所记录,数量大,一般为专业人士定位问题所查看。

绿洲提供基于日期、功能模块、告警级别筛选过滤设备日志明细,目前设备日志最久可以获取7天的数据:

另外,绿洲对日志进行了初步的统计,可以通过统计图查看时间段内设备运行过程中,所产生的问题的总体情况。