你知道么,有些金融机构会用班车将数据备份磁带库的存档到仓库? 丰田汽车金融(中国)有限公司就是如此, 每周固定时间,都会派一辆车,从北京东三环的环球金融中心驶往京城东北某处一座楼宇。这辆车肩负特殊使命,就是将备份着丰田金融所有业务数据的磁带送达指定位置。
数据通勤之旅
当前,信息系统成了企业运行的神经中枢。信息如果出错,企业的神经系统就会紊乱。在信息化程度很高的金融机构,信息尤其重要。作为银监会监管之下的一家金融机构,丰田金融都按照金融行业的高要求,保护着信息系统上的数据。
为了避免数据中心级的灾难损毁数据备份磁带,丰田金融在京城东北某地专门租用仓库,异地保存磁带。数据管理员要把新一批数据备份磁带送到仓库存档,也会把一些旧磁带取回来,当成空磁带备份新数据,从而减少磁带消耗和空间占用。
这趟定期班车已经行驶了很多年,而丰田金融采用磁带备份的方式保护数据也用了很多年。当生产系统出现故障、丢失数据时,能够从磁带把数据找回来,恢复到应用系统中。
融合改变存储构建
不过现在,这趟定期班车恐怕就要停驶了。改变这辆通勤车命运的,是丰田金融进行的新一代灾备系统建设项目。该项目的目标是,让灾难恢复的速度更快——即使发生数据中心级别的灾难,也能够在 2 小时内恢复业务,对外营业。
在磁带备份的方式下, 如果发生数据中心级别的灾难,需要重新建立系统运行环境,从硬件、软件、网络和应用的安装与调试,到数据恢复、校验,要几天时间才行。即使有现成的运行环境,从数据恢复、校验到对外营业,也需要 6 到 8 小时。
为此,丰田金融跟 EMC 合作,先后开展了两期容灾系统建设。第一步,先选址北京城南某地建立新的数据中心,作为关键业务应用的生产数据中心,以及非关键应用的灾备数据中心;第二步,升级原有的数据中心,作为关键业务应用的灾备数据中心、非关键应用的生产数据中心以及开发测试环境。
两个数据中心之间通过广域网连接。这样,数据就实时地通过网络传到另一个数据中心保存了。一个数据中心发生灾难的时候,能够将应用切换到另一个数据中心。在那里,系统运行环境是现成的,硬件配置、软件版本都随时就绪,只要按照应急方案,将数据访问切换过去、检查校验之后,就能够对外营业,整个过程能够控制在 2 小时以内。
数据从坐车到走网, 业务连续性提升到一个新的台阶。EMC 咨询服务团队协助丰田金融完成了新一代灾备系统建设的全过程,包括建立灾难恢复计划、需求分析、灾备策略制定、技术路线及技术方案设计、灾备建设实施、同城灾难恢复预案、同城灾难恢复演练、生产系统切换、虚拟化改造、运维和操作流程等内容,所以了解到,丰田金融在灾备系统建设方面有着众多值得学习之处。凡事预则立,不预则废,丰田金融最值得学习的一点就是高度重视、坚持执行灾备演练。
不一样的演练
今年,丰田汽车金融(中国)有限公司每年一度的 IT 系统灾备演练在北京举行。这次的模拟场景是,位于城北某地的生产数据中心完全故障,需要将业务系统切换到位于城南某地的灾备数据中心。演练结果表明,在一个数据中心完全故障的情况下,丰田金融能够在 2 小时内恢复业务、对外营业。通过演练,让公司高层、风控部门、业务部门、IT 部门做到心中有数;通过演炼,让各个岗位的人熟悉流程、明确职责,当真正发生信息系统灾难时各司其职、有条不紊。
丰田金融值得学习之处在于:每年坚持做灾备。从磁带备份、数据容灾的年代开始,每年 3 月都会做一次灾备演练。在新的灾备系统建成以后,由于演练的准备工作更容易,丰田金融计划让演练更频繁一些。很多人都知道灾备演练很重要,但是灾备演练是一件比较麻烦的事,首先要制定应急计划、建立应急体系,然后根据应急计划准备灾难场景, 培训企业从上到下、多个部门的人员,利用或创造业务间隙进行演练。
所以,虽然不少企业在建成灾备系统以后,也会进行灾备演练,但是,灾备演练能做到什么程度,则参差得很。有些企业的灾备演练浅尝辄止、不彻底,有些企业在做完一次灾备便算大功告成,束之高阁。等真正发生系统故障时, 当时演练过的系统环境完全变了,人员也变了,流程不通了,根本不可能实现灾难恢复目标。
当然,跟银行类金融机构相比,丰田金融的一个有利条件,就是周六基本没有业务,所以不需要为灾备演练而暂停业务。运用之妙,存乎于艺。通过演练充分发挥产品技术的效用,使得丰田金融不需要最先进的产品技术,就能达到满意的效果。
丰田金融的关键应用运行在Oracle RAC+小型机环境,另一部分应用运行在 VMware 虚拟化环境。在两个中心之间通过 EMC RecoverPoint 进行数据复制,并通过实时运行的灾备系统实现应用级灾难恢复。虚拟化环境通过 VMware SRM 实现虚拟机在两个数据中心之间不同物理机的漂移,从而实现应用级灾难恢复。
从技术上讲,EMC VPLEX + RecoverPoint是最先进的容灾方案, 已在国内多家企业和机构采用。通过 VPLEX 能够实现数据中心双活,两个数据中心的数据实时同步,RPO(恢复点目标)和 RTO(恢复时间目标)都接近于 0;通过 RecoverPoint 能够实现数据回滚,当发生人为误操作或软件逻辑错误时,能够把数据回滚到以前任意时间点的状态。
丰田金融并没有采用这种最先进的技术解决方案,而只是采用 RecoverPoint 做数据复制。因为丰田金融风险控制部门根据实际业务需求,制定的容灾目标是——RTO < 2 小时。这样的目标,采用 RecoverPoint数据复制就能够实现。
采用新技术固然不错,但是一定要真正让新技术发挥作用,这是 EMC 一直向用户提倡的。丰田金融通过认真、严谨的灾备演练,对应急体系建设常抓不懈,这样,灾备方案才能在关键时刻不负使命。丰田金融的做法值得学习。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。