随着信息时代的发展,无论是企业,还是学校、医院等单位,越来越多的关键业务系统上线,对信息系统的依赖程度越来越高。这种情况下,对业务的可靠性保障,就变得非常重要。为了在自然灾害或其他意外,如大规模断电、出口故障等机房级故障发生时,保证业务数据的完整性,及业务的连续性,就需要搭建容灾系统,来对整个站点进行容灾保障。
容灾,又称灾难恢复(Disaster Recovery),指将信息系统从灾难(火灾、洪水、地震、或人为破坏等)造成的故障或瘫痪状态,恢复到可正常运行的状态,并将其支撑的业务功能,从不正常状态,恢复到可接受状态。
容灾系统(Disaster Recovery System)的建设,一般在相隔较远的异地,建立两套或多套功能相同的业务系统,这些系统间,可进行状态监控及业务切换,当一处系统因人为或自然原因,造成严重故障或瘫痪,支持的业务功能不能正常运行时,整个业务系统可以切换到另一处,使得业务功能可以继续正常工作。
容灾系统的建设目标,是保证灾难发生时,业务不中断,数据不丢失。针对这两个目标,衡量容灾系统的关键指标有RPO和RTO两种。
RPO(Recovery Point Objective,恢复点目标),又称为业务系统所能容忍的最大数据丢失量目标,是指当灾难发生后,用户要求把数据恢复到灾难发生前的某个时间点。RPO是衡量企业在灾难发生后会丢失多少数据的指标,衡量容灾系统的数据冗余备份能力。RPO一般由采用的数据复制方式决定。同步复制方式可以做到RPO为0,异步复制方式的RPO取决于复制的周期。
图-1 RPO
RTO(Recovery Time Objective,恢复时间目标),又称为用户能容忍的恢复时间目标,是指信息系统从灾难状态,恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。RTO水平一般由容灾业务恢复流程决定,自动化程度越高,RTO越小。
图-2 RTO
根据对系统的保护程度,可以将容灾系统分为三级:数据级、应用级、业务级。
数据级容灾:通过建立异地容灾中心,做数据的远程备份。在灾难发生之后,确保原有的数据不会丢失或遭到破坏。在数据级容灾方式下,所建立的异地容灾中心可以简单地理解为一个远程的数据备份中心。
应用级容灾:在数据级容灾基础上,在备份站点同样构建一套相同的应用系统,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。
业务级容灾:是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。
图-3 容灾系统分类
对数据的保护是容灾的基础,一般通过备份来保护数据。备份指为防止系统操作失误或故障导致的数据丢失,而将全部或部分数据集合,从应用主机的硬盘或阵列,复制到其他存储介质的过程。存储阵列的复制技术一般分为同步复制和异步复制两种。
同步复制能够保证具有复制关系的数据卷之间数据的一致性。同步复制的原理是,每个I/O写操作,都会等具有复制关系的主卷和远程卷都返回写完成才释放。因此同步复制方式有最高级别的数据完整性,但是性能会因为在阵列之间传送数据延迟而降低,而且同步复制方式复制阵列之间的距离要满足RTT(Round-Trip Time,往返时延)的要求。
同步复制一般应用于较短距离间(10KM~100KM同城),且对数据一致性要求极高,对数据丢失几乎不可容忍的场景,如银行系统等。
图-4 同步远程复制
异步复制方式一般都是周期性进行的,不能保证具有复制关系的数据卷之间的数据一致。异步复制的原理是本地主卷完成写操作后,给此数据卷创建一个快照,然后将快照复制到远程卷。异步复制方法提供了比较高的应用性能,但如果灾难发生,在远程卷上还未更新的数据就会有丢失风险,即时间窗口。
异步复制对带宽和距离要求相对较低,适用于业务系统性能要求较高,写压力小,对阵列IOPS和时延要求不是太高,如数据库、文件系统等场景。
图-5 异步远程复制
UIS超融合站点容灾功能,基于存储阵列的远程复制技术,提供应用级的容灾服务。下面将从适用的场景、实现机制等方面、配置流程等方面,介绍UIS超融合容灾特性。
适用场景:同构云H3C UIS(版本一致)。适用于数据中心级的容灾。
存储自动化支持:ONEStor分布式存储,宏杉存储。
RPO:分钟级。
RTO:分钟级。
UIS的站点容灾系统,大体上可以分为两大块:存储层针对数据一致性容灾目标的配置,以及业务层针对业务连续性容灾目标的配置。
在存储阵列层,通过配置存储的异步远程复制,完成对业务数据的备份。
在业务层,通过配置保护组,将生产站点受保护的虚拟机配置同步到灾备站点。
制定恢复策略,当灾难发生时,利用存储层备份的存储数据及业务层同步的配置数据,在灾备站点创建并拉起容灾虚拟机,将业务切换到灾备站点。
存储复制容灾,依赖于存储阵列的复制功能,因此要求保护站点和恢复站点的存储复制技术要一致,且存储阵列上必须有存储复制功能和快照功能的授权。 |
图-6 存储复制容灾实现机制
利用分布式存储复制技术,在存储层完成受保护虚拟机数据的复制,达到RPO分钟级、RTO分钟级容灾。支持互为主备的双运营模式,保护投资。
不仅支持ONEStor分布式存储,也支持其他存储阵列,只需要保护站点和恢复站点的两台存储之间可以实现数据的复制功能和快照功能即可。对于不支持SRA的存储阵列,在进行故障切换的过程中需要通过手工的辅助工作来完成存储环境的准备。
生产站点虚拟机配置变化及时同步到灾备站点,无惧业务变更,实现业务同步。配合定期演练,保证容灾系统长期可用。
在存储阵列层完成受保护虚拟机数据的复制,减少容灾业务对生产服务器的性能影响。
存储配置、容灾任务配置一站式配置。生产站点和灾备站点计算、存储、网络资源直接映射。
一站式管理生产站点和灾备站点,在生产站点UIS超融合管理平台进行的容灾配置,会同步到灾备站点管理平台,不需要在多个管理台之间来回切换即可完成配置。
无中断的故障演练测试,不影响生产业务,确保实现可预测的恢复目标,降低故障恢复的RTO。
站点恢复后,一键反向恢复,将业务恢复到保护站点。