国家 / 地区
docurl=/cn/Service/Policy_Trends/Service_News/201910/1238882_30005_0.htm

新华三某金融用户应用系统可用性评估最佳实践

【发布时间:2019-10-23】

客户的挑战

我们知道,一个复杂的IT系统可能会包含多个厂商、多个IT组件,而这些组件一般是跨协议的,IT系统的可用性高度依赖于每个IT组件的可用性,如:IT组件是否存在BUG?IT组件之间是否存在兼容性问题?IT组件之间是否以最优状态相互协作运行? IT组件是否存在高可用风险?IT组件是否存在性能瓶颈以及性能发展趋势如何?这些都是关乎IT系统可用性、IT运维人员必须关注的问题。而一般客户缺乏“一站式”的专家团队来评估并解决这些问题。

某金融客户,IT系统涉及十几个厂商、几十个IT组件,随着业务量的不断增长和IT架构的演进、变化,在2017中旬到2018年初,陆续发生了由于IT组件BUG导致生产系统宕机、IT组件兼容性问题导致数据丢失、IT组件配置不当导致性能衰减、文件传输服务器核心组件版本问题导致客户端经常发生数据传输失败、核心交易因抢占CPU导致业务延迟等严重问题,这些问题严重影响着公司正常业务运行,给运维部门带来了巨大的压力。

解决方案

在了解到用户的需求痛点后,新华三集团技术服务部性能优化服务专家团队(PO)快速响应,针对客户关键业务系统IT组件,进行“一站式”的可用性评估,本次基础架构可用性评估主要内容:

评估方法

本次项目实施过程充分参考、汲取了LEAN 6SIGMA过程改进体系的一些方法、原则,如图1所示:

图1 LEAN 6 SIGMA项目过程改进总体路线图

图1 LEAN 6 SIGMA项目过程改进总体路线图

结合LEAN 6 SIGMA相关方法、原则, 首先由客户指定关键业务系统,通过对该业务系统设计、开发、运维人员的访谈,对该业务系统关键交易的交易路径进行了梳理,绘制数据流图,对关键交易数据流向的主要设备及技术组件类型、版本等通过绘图的形式进行标注。

然后由各技术领域专家通过脚本对标注的设备和技术组件进行数据采集和整理,并依据专家最佳实践和官方建议对现状进行评估分析,建立各技术组件可用性基线,针对存在的问题,提出可用性改进建议。

最后专家团队集中讨论,并与客户相关负责人就发现的问题进行逐一讨论和确认,达成一致意见,确定问题优先级,撰写可用性分析和整改建议报告,通过阅读技术文档结合专家团队最佳实践,采用了对相关组件升级、修改组件配置参数、修改应用程序源码等手段对问题进行修正。并对修改点进行反复测试,对比调整前、改后效果,对被优化功能点进行了持续完善、改进、提高、度量;在被优化功能点达到预期效果后,撰写优化结果报告,并对优化过程、结果进行评估、汇报,最后按流程将优化资产提交相关部门,并持续跟踪上线后运行情况。

关键组件评估内容

项目组对客户关键业务系统涉及的应用程序、操作系统、中间件、数据库、存储、网络、开源组件、VMware等IT组件进行了全面可用性评估,下表是关键组件的概要评估内容:

场景示例:

客户核心交易在业务高峰期,经常出现超时现象,严重影响营业厅柜台业务,多次遭到客户投诉,客户开发、运维人员及三方厂商相关人员分别从应用程序、IT组件性能等入手分析,经过一个多月的排查,仍无法准确定位问题所在。

PO团队入场后,首先以核心交易为主线,对涉及的架构、流程、应用、进程、基础设施等之间的支撑关系进行了快速梳理,其次对核心交易涉及的应用程序、主机、数据库、VMware、存储、网络等组件进行全面性能分析及深度健康检查。最后锁定交易超时的两个线程,通过kiinfo/caliper等工具对核心交易线程进行了深度性能分析。

通过对核心交易性能跟踪分析,发现在业务高峰期,经常发生其中两个交易线程轮流在SLEEPING、ON_RUNQ、RUNING状态之间切换,经过对研发人员的调研访谈及源码分析,发现这两个线程由同一个进程创建,两个线程之间存在互斥,同时发现两个核心线程存在被其他进程抢占cpu资源的情况。

通过psrset将两个线程绑定不同的CPU,从而将这两个线程隔离,以减少互斥,同时可减少这两个进程CPU被抢占的情况。通过chatr指令修改应用程序内存页面大小,提升线程cache命中率,从而提升核心交易性能。在不改动源码的情况下,通过“外科手术式”的配置优化,使核心交易性能提升了56%,解决核心交易超时问题。

服务成果

专家团队对客户关键业务涉及的18个技术组件、317台设备进行了全面可用性评估,发现:该客户关键业务系统所有IT组件普遍存在版本未及时升级问题、部分关键组件存在参数配置不当、核心业务存在高可用风险等严重问题,经过与客户相关负责人的最终确认,有159个可用性问题是之前客户未发现或忽视的,其中严重级别较高、建议立即整改的问题有17个。

同时专家团队定位并详细分析了存储数据丢失、文件传输服务器客户端经常发生数据传输失败、核心交易延迟、生产主机宕机等客户关心的热点问题,针对问题给出具体解决方案。并就类似问题,举一反三,对关键业务系统进行全面排查,从管理和技术层面提出了整改建议,消除了业务系统可用性隐患。新华三PO团队在帮助客户评估关键业务可用性的同时,也帮助客户梳理了关键业务系统基础架构情况,建立关键业务系统可用性基线,使客户更加清晰了解了关键业务系统的现状。

在可用性评估完成后,新华三PO团队出具了整改建议并配合相关责任方进行整改,并跟踪整改后生产运行情况,做到了业务系统可用性评估“一站式”、“端到端”的管理。在项目进行的同时 ,团队专家也与客户分享了应用及基础架构技术、可用性评估及性能管理等方面的最佳实践,提升了客户运维管理能力。