银行信息系统中断1小时,将直接影响该行基本业务;中断1天,将大大影响银行市值。自2009年开始,广发银行每年进行异地灾备系统的实战切换演练,逐年提高演练的难度和复杂度,积累了成熟的切换管理控制经验。
信息系统的安全性、可靠性和有效性不仅是商业银行赖以生存和发展的重要基础,还关系到整个银行业的安全和国家金融体系的稳定。根据近几年国际上出现的信息系统故障事件分析,如果银行信息系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对银行声誉和市值造成极大伤害;中断2~3天以上不能恢复,将直接危及银行乃至整个金融系统的稳定。
灾备演练势在必行
为了应对各种突发性事件,各级监管部门加强了对银行业务连续性管理、建设、运营的监管和检查力度,出台了一系列的监管规定,对银行业灾难备份中心的建设和演练等提出了更高的要求。
中国银监会[2010]114号文下发了《商业银行数据中心监管指引》,其中第34条明确要求:商业银行每年至少进行一次重要信息系统专项灾备切换演练,每三年至少进行一次重要信息系统全面灾备切换演练,以真实接管为目标,验证灾备系统有效接管生产系统与安全回切的能力。
中国银监会[2011]104号文下发了《商业银行业务连续性监管指引》,其中第49条、50条再次强调:商业银行应当至少每三年对全部重要业务开展一次业务连续性计划演练;演练应当注意以真实业务接管为目标,确保灾备系统能有效接管生产系统并具备安全回切能力。
广发银行自2009年开始,每年进行异地灾备系统的实战切换演练,逐年提高演练的难度和复杂度,积累了成熟的切换管理控制经验。总结广发银行这几年实战演练的经验,实战演练各阶段的工作事项主要分为以下几项:一、确定演练目标和演练原则,二、演练范围及可行性分析,三、制定风险控制措施,四、技术测试、模拟切换及回切,五、制定针对演练的应急预案,六、实施切换和运维保障。
进行实战演练首先要确定演练的目标和原则。实战演练不只是IT部门的工作,而是银行IT风险防范的工作之一,实战演练的工作计划和安排要得到银行高管层和相关业务部门的支持。因此,每年年初制定演练计划后,须将演练计划向银行高管层汇报,向各业务部通报。
目前国内银行异地灾备中心进行的实战演练一般为单系统的实战演练。实战演练的目标一般定为验证灾备单个业务系统可用性和可恢复性,以及同步数据的有效性。演练原则一般包括以下几个原则:风险可控的原则,包括技术风险可控,业务风险可控等;影响最小的原则,包括停业时间最小、可能带来的业务损失最小、公众影响面最小等;确保安全的原则,主要考虑交易数据的安全,以及生产和灾备的有效隔离等;以点带面原则:选择有代表性的系统,实现有效验证。
实战演练的四点建议
不宜直接选取架构复杂、切换难度大、业务影响范围广的系统进行实战演练,应在综合考虑本单位的灾备系统建设情况、技术能力、应急能力、切换经验等多方面因素后,选取适宜的系统进行实战切换演练。初步筛选几个可选系统后,逐一进行切换可行性分析,建议从灾备完整性、系统关联性、实施复杂度、业务影响范围、切换窗口、业务部门支持能力等多方面进行分析筛选。其中业务部门支持能力这一项绝对不能忽视,否则会直接影响实战演练后续的工作。初步完成实战演练业务系统筛选后,务必与相关业务主管部门进行深入沟通,将演练的业务影响、配合工作和业务部门的职责告知业务部门,取得业务部门的支持。实战演练可行性分析报告一般会给出两三个难易不同的实战切换系统建议,须向银行高管汇报,由行领导审批确定最终的演练系统。
风险控制措施一般须考虑系统架构差异风险、操作风险、数据丢失风险、业务交易风险、双中心生产运营风险、数据回切等。其中异地灾备系统实战切换演练较同城灾备系统实战演练更加要注重数据丢失风险。灾备系统接替运行后,交易数据回传到生产系统会有一定的延迟,一旦灾备系统的主机、存储、数据复制网络出现问题,将导致交易数据无法回传生产系统,会出现部分数据丢失的情况。建议实战演练期间尽量缩短数据回传的周期,采用多种方式的数据保护方式,如数据实时回传、CLONE数据保护、数据磁带备份等,在出现灾备存储或者信线路故障的情况下,实现满足灾难恢复指标的快速恢复和应急处理。
实战演练方案拟定后,建议至少进行三次技术测试或模拟切换,通过技术测试或模拟切换对实战演练的切换步骤、切换时间、数据回传保护、网络切换、业务数据QoS策略等进行测试。根据以往的经验,通过技术测试和模拟演练一般都会发现问题,其中最多的是网络切换后双中心的系统互联互通的问题。
实战演练方案和实施人员最终确定后,建议进行一次切换的桌面演练,对演练时的命令下发、进度反馈、问题收集等进行演练,通过桌面演练要保证所有参加演练的人员知道自己的工作任务是什么,接收谁的指令,向谁反馈进度和问题。进行7×24小时对外服务系统的实战演练时,由于系统切换的窗口时间非常短,建议进行实战演练指挥和系统切换的人员尽量集中在一起,生产中心和灾备中心的两个指挥部之间采用视频、语音等方式保持实时沟通,缩短系统切换的沟通协调时间,提高切换效率。同时,建议搭建演练进度控制平台,用于演练的整体进度控制和业务检查情况反馈,一来可以向参演分行、业务部门展示演练的进度,二来可以用于收集参演分行、业务部门的业务检查情况。
双活数据中心保平安
传统的容灾系统通常由一个生产中心和一个灾备中心组成。这种容灾模式造价高、技术复杂,缺乏财力和技术能力的企业很难实施。由于采用一主一备的方式,只有在生产中心发生故障时,灾备中心才启动,而平时灾备中心并不发挥作用,因此对资源来说是一种极大的浪费。随着用户对业务连续性的要求不断提高,以及虚拟化、云计算等技术的兴起,“双活数据中心”的概念逐渐获得了用户的青睐。
与一主一备的方式不同,双活数据中心中的两个节点都处于业务运行状态,业务处理上互为备份。任何一个数据中心发生故障,都不会导致全部业务中断。通过部署双活数据中心,客户可以享受到多中心服务带来的更加快速的业务处理体验。异地双活数据中心无论是在技术架构还是管理架构上,都是生产系统灾备建设的最高标准,它能够确保在出现本地故障或区域性灾难时,业务仍可持续运行。在双活数据中心的基础上,现在很多企业又在尝试构建多活的数据中心,将业务连续性水平提升到更高层次,同时还能提高数据中心资源的利用率。
广发银行对其网上银行系统进行改造时提出,要以客户需求为导向,构建集服务与营销于一体的、开放的社会化互联网平台,同时充分利用移动互联技术,将金融服务融入人们的生活。为了实现这一目标,保障网银系统的数据安全性和业务连续性就显得至关重要。广发银行与万国数据(GDS)在灾备外包已经有多年合作经验。经过前期建设,广发银行已经实现银行核心系统等重要系统的异地灾备,以及灾备系统的实际切换和接替运行。在此基础上,在2012年双方进一步合作,实现广发银行网银系统异地双活部署。广发银行异地双活中心的上线运行,标志着其网银系统的安全性得到了切实保证,可确保广发网银在发生自然灾害或设备故障时,网络不断、数据不断、业务不断。
万国数据协助广发银行打造异地的双活中心进一步提升了网银系统的动态调剂和延伸生产功能,实现了对网银业务和灾备系统资源的充分利用,构建了更具弹性的负载均衡平台,为广发银行开展各项业务提供安全、稳定、灵活的基础运行环境。双活数据中心能够7×24小时不间断地对系统软硬件的运行情况、性能参数进行监控,并能根据指标值、趋势范围等进行智能动态分析,并在发现问题时及时告警,从而保证了系统的安全、稳定运行。通过定期对容灾系统进行灾难切换演练,可以帮助企业构筑完善、安全的容灾系统。必要的灾备演练是保证灾备系统有效性的重要检验手段。演练的内容主要包括桌面演练、模拟切换演练和实际切换演练等,客户可以根据自己的需要进行选择。现在,已经有容灾厂商推出了自动化的容灾演练产品,更方便企业进行演练。
作者:广发银行 吴基科、钱鹍
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。