国家 / 地区
docurl=/cn/Service/Home/Success_Story/201905/1182160_30005_0.htm

神华集团统一运维平台建设

【发布时间:2019-05-15】

原神华集团(原神华集团和中国国电集团公司已于2017年11月28日正式合并为国家能源集团有限责任公司,以下简称集团)作为超大型的国家能源投资集团,下属有44家二级单位,650余家三级单位。集团的核心理念是助力价值创造和引领行业创新,其未来前景是打造数字神华和建设世界一流信息化企业。

集团IT组织和架构异常复杂,IT设备“万国造”,分散在全球近千个大大小小的数据中心,IT规模大小各异,有大到如国华电力数千台的二级单位,也有仅仅数台服务器、交换机的小型矿山、电厂等。随着信息化建设的推进,建设一个全集团统一规划和统一部署的基础架构资源管理平台显得尤为迫切。

新华三通过统一运维平台的建设,建立了一套全集团统一的管理平台,初步实现对全集团网络及系统设备的“统一监控,统一管理;提升运维,强化管控”,监控管理全集团各级单位IT基础设施,规范集团IT资源管理系统建设和使用。

项目实施后,在运维资产管理、运维精细化管理、降本增效、运维安全管理和提升运营效率等方面取得了显著成果。IT设备资产记录增加到18000多条,超过了此前3年录入记录总和5倍。建立了集团IP资产基础库,掌握了集团资源分类数据和资源使用情况。可管控集团8000多台网络设备的25万多个端口,为集团二级单位节省类似系统运维成本70%,通过精确定位故障节点并提供趋势预测和辅助决策,大大提升了集团运维效率。

核心需求

1. 集团需要加强管控、统一规划和统一建设,强化集团对下属各单位信息系统的管控能力和指导作用;

2. 全集团统一运维管理规范,咨询与规范先行,通过行政手段进行闭环管理,实现全集团IT设备的全面“监视”、“管理”和“控制”需求;

3. 对于下属44家二级单位,650余家三级单位管理能力参差不齐,IT网管、运维平台等建设情况各异的现状,进行集团统一建设,分权分级使用,强制推广,快速提升所有下级单位IT运维管控和治理能力;

4. 对于下级单位IT资产采购建设无序的现状进行强管控,彻底解决私自采购,私自入网的乱象。

攻坚过程

1. 摸清家底

在项目前期,资产管理平台全集团资产记录不足3000条,集团信息部对所有二级单位网络、服务器、存储等设备只有规模级的估算,无法拿到详细设备清单信息,且项目要求三个月内要完成全网设备的监控和纳管以及平台功能建设要求(实际设备总数约2万台);若按一般运维管理平台项目建设思路,先调研收集信息,然后再部署实施,是无法满足项目时间要求的。

为了快速摸清在网设备情况,并快速推进项目建设, 新华三鹰视E P S

(Endpoints Profiling System,端点探测系统,以下简称EPS)系统在项目建设中发挥了重要作用。

鹰视EPS主要用于识别和监控网络中的所有IP端点。鹰视扫描器对终端的识别采用主动识别的方式,通过扫描器主动向网络中的终端发送探测报文,基于终端指纹信息,对探测回应报文进行模式识别,从而识别出终端的类型、厂商、操作系统、IP地址等信息。

https://mmbiz.qpic.cn/mmbiz_jpg/yHl880XZ5TTdVFuUnCIJzYgwgdMXib6hsqYvIoIY0I3ibLI4CC8GkQUTCC7x5BGHSeSVFUNGcer4rkcOdBaLwPxQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1

图1 终端识别管理

鹰视扫描得出的资产与设备信息,通过二级单位运维人员人工核对之后上填到集团“通信资源管理平台”,然后鹰视基于人工核查后的“通信资源管理平台”准确数据比对形成每一个终端的信息管理基线。通过基线对比实现了在网设备的摸查,快速推进了网络设备的监控和纳管,2017年10月,项目启动3个月后,网络设备监控纳管完成90%,完成了项目第一阶段监控目标,同时也初步了解集团各二级单位非终端设备资产情况。

2. 强化监控

运维平台基于新华三统一运维管理平台和鹰视模块构建,其服务器集中部署于集团总部,根据方案设计三个服务器集群:网络监控服务器集群,鹰视服务器集群,应用监控服务器集群,通过授权服务器统一管理,其物理架构如图2所示:

https://mmbiz.qpic.cn/mmbiz_jpg/yHl880XZ5TTdVFuUnCIJzYgwgdMXib6hsYGjGGl1pVZPjOZy14IXbynJE2HcIkuFPiceOOoRbX6l9lmvggOy35Hw/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1

图2 统一运维平台部署架构

统一运维平台物理架构设计满足集中管理、分级分权的管理需求,同时也考虑性能以及可用性的非功能需求。

3. 控制准入

对于下级单位私自采购的IT设备,进行强制管控。要求限时上报,报备及录入“通信资源管理平台”纳入到鹰视的基线库中,对于未能按照集团管理规范要求进行处理的私接设备要进行强制下线处理。

在准入方面,鹰视能够对入网的“人”和“物”敏锐感知,并对入网设备实现精准识别,为不同类型用户匹配相应权限,并实现对非法设备的主动隔离和阻断,从而杜绝安全隐患。在管理方面,鹰视系统能够对入网设备自身状态以及各设备之间链路状态进行持续监控,并使用户能够通过图形化的方式管理IP资产,提升网络管理效率。

4. 管理闭环

统一运维平台要对所有在网的安全设备、网络设备、存储设备、服务器、数据库、中间件、虚拟化平台、应用系统须在平台中按《网络资源管理平台管理规范》要求进行监控。在监控实施和网管运维过程中,各二级单位会存在新增设备、退网设备、按计划对设备进行巡检、监控设备告警及设备故障处理等运维工作。

为规范和督促二级单位使用统一运维平台,新华三为集团设计了一套闭环管控流程,其流程如图3所示:

https://mmbiz.qpic.cn/mmbiz_jpg/yHl880XZ5TTdVFuUnCIJzYgwgdMXib6hs7ZGNnrpNONjncNgJGh7BJkk7ShlHalT0POtAURSG0o5WxaE0bNPfrA/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1

图3 管理闭环管控流程

在闭环管控实施过程中,要求二级单位进行填报和设备入网审批。若二级单位存在瞒报、漏报,则鹰视产品通过设备扫描会发现不合规接入的设备,从而产生准入告警。产生告警后,告警信息会发给各二级单位网络管理员,并按月对二级单位统一运维平台使用水平进行评价和考核。

对已入网的并监控起来的设备,若设备运行正常,满足事先预设的阈值要求,则统一运维平台正常监控,若超出阈值要求,则会生成告警和运维流程工单,要求运维人员及时处理告警,尽快排除故障。若不能在规定时间内解决问题并消除告警,统一运维平台也会对二级单位进行水平评价和考核。

在日常运维过程中,有设备入网、退网前,应在通信资源管理系统中发起设备入网、退网申请,集团信息部审批后方可进行相关操作。对已监控设备执行计划停机操作前,须在平台中发起计划停机申请。广域网设备计划停机申请需经集团信息部进行审批,其它设备计划停机申请由子分公司及相关部门审批,审批通过后方可进行相关停机操作。

统一运维平台的应用过程包含了一系列的复杂的事务和活动,为了保证统一运维平台上线以后,全集团的整个网管工作能够健康、有序、顺利地开展,特制定了《网络资源平台管理办法》和《网络资源管理规范》,作为今后网络资源监控管理应用活动开展的实施标准,以获得全集团在网络资源监控事项方面的最佳次序和管理效益。