设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2012年10月
全力打造完善的灾难备份体系——访交通银行股份有限公司数据中心副总经理郑仕辉

  本刊记者 高曙东

  自2002年以来,交通银行通过数据大集中、海外分行数据集中和迁移两个工程,实现了全行主要信息系统的大集中。同时,交通银行的信息系统也扩展至由运行于大型机的核心账务业务系统、信用卡系统和运行于开放平台的基金、网银、外汇等组成的100多个应用系统。

  信息系统高度集中的同时,运行维护风险也日益集中。为此,交通银行制定了信息系统灾备体系规划,加快灾备体系的建设。交通银行正在全力打造一个完善的灾难备份体系,以灾备工作为抓手,推进灾备相关技术的创新使用,促进各项流程管理水平的提升。近日,本刊记者采访了交通银行数据中心副总经理郑仕辉。2010年至今,郑仕辉先后担任数据中心总经理助理和副总经理。他介绍了交通银行灾备体系建设历程,详细解读了灾备体系构架及其在业务连续管理方面的作用,并介绍了云计算技术在交通银行数据中心的应用情况。

  《中国金融电脑》:请介绍交通银行灾备体系建设情况。

  郑仕辉:灾备系统体现了数据中心智能应急处理、高效业务支撑的重要作用,是交通银行打造智能数据中心的一个重要考量指标。交通银行数据中心近年来致力于打造服务集团、境内外一体化、业界领先、设施完善的灾难备份体系。数据中心规划中明确定位了两地三中心一体化灾备体系。两地三中心包括:张江数据中心、漕河泾同城副中心和武汉异地灾备中心,三个中心的功能定位如下。

  张江数据中心,作为主生产中心,提供全时段的业务生产运行服务。提供本地服务器高可用系统架构, 具备本地应急恢复能力。漕河泾同城副中心作为生产副中心,既能在日常分流部分关键业务的生产负载, 又具备在张江数据中心出现大面积的系统瘫痪时接管生产系统运行的能力,灾备等级达到第六级,RPO为0,RTO为数分钟。武汉异地灾备中心防范城市级别的灾难,在张江数据中心和同城备份中心均不能对外提供服务的情况下接管业务,灾备等级达到第五级,RPO为数分钟,RTO为数小时至2天。同时,异地灾备中心兼顾部分生产需求,挑选合适系统(如Elearning系统)适当分流部分业务。

  近年来,交通银行数据中心从灾备建设、灾备切换演练、灾备管理三方面大力推进灾备工作。通过几年的努力,共建成了现有国内行40套系统、海外行18套系统的灾备环境,涵盖了交通银行大部分重要系统。

  灾备切换演练方面,2008年进行了核心、贷记卡、网银等重要外围系统灾备切换运行演练;2009年进行了双中心运行演练,从2010到2012年,在元旦、春节高峰时段均启动了生产系统的双中心运行,为之后的分钟级灾备演练奠定了技术基础;2011年进行了海外行核心业务、综合客户信息、网银、卡交换等系统的分钟级灾备切换运行演练,标志着交通银行核心业务系统灾备达到了国标灾难恢复等级最高级——第六级,开创了境内同业灾备切换并对外运行服务工作的先例。

  在灾备系统建设的实践中,交通银行围绕我国监管部门对突发事件处置“一案三制”的总体要求,积极有序推进,在采用先进技术手段的同时,辅以建立配套的管理制度流程和业务持续性计划,使灾难备份体系达到了国际先进水平。

  《中国金融电脑》:在确保业务连续性方面,交通银行的管理思路是什么?

  郑仕辉:根据政策监管要求,交通银行建立了一整套业务连续性管理的企业战略, 重视流程、平台、文化三方面的问题,以业务为中心、以流程为导向、以技术为手段、以文化为保障,获得了显著的效益。

  交通银行高度重视业务连续性的建设,制定了与业务连续性管理相配套的服务流程和一系列管理办法, 如《交通银行突发事件管理办法》、《交通银行信息系统应急管理办法》、《交通银行媒体危机应对管理办法》、《交通银行数据中心可持续性管理办法》等;建立了业务连续性管理组织架构,按照主管部门、执行部门、保障部门的分工,组建了专门的风险管理委员会,直接向董事会负责。其下由风险管理部负责日常管理事项,信息技术管理部、数据中心等部门各司其职,共同参与业务连续性管理。

  业务连续性管理主要包括以下工作:风险和灾难规避评估、确定整体恢复策略、确定与建设业务持续性计划、设计开发持续性和灾备预案、预案演练、预案维护。经过几年的摸索与实践,交通银行在持续性管理流程下建立了预案体系、演练体系和应急体系,并辅以管理细则和绩效评估,定期回顾流程执行情况,落实流程执行效果。预案体系分为四个层次,第一层是《生产突发事件现场应急处置预案》,其中定义了突发事件的通用应急响应流程,是所有其他预案的入口;第二层是场景预案,大致覆盖了可能遇到的绝大多数突发事件场景;第三层是技术预案,详细描述了应急恢复的技术细节;第四层是操作手册和资料性文档,作为技术预案的补充。目前数据中心已有各类预案百余份,并定期进行修订更新。

  作为国内金融业首家通过IT服务管理的国际标准ISO20000的机构,交通银行数据中心在ISO20000的框架内包含了可持续性管理流程的内容。通过ISO20000框架内各流程之间的联动,打破了职能部门之间的技术壁垒,实现减少服务不可用的时间或者最小化业务活动中断影响的流程目标。

  《中国金融电脑》:交通银行为进一步提高突发事件应急响应和处理能力采取了哪些措施?

  郑仕辉:在充分理顺了业务连续性管理流程后,数据中心对管理流程进行平台化改造,在已经建设完成的BCM平台中,全面覆盖风险分析、业务影响度分析、预案开发和管理、应急演练、应急响应、应急恢复等领域,形成一套完整的业务连续性管理闭环。通过自动化工具提供了全新的演练方式提高演练成效,实现预案策略的快速查询和定位,在应急响应过程中提供操作和指挥层面的信息支持。这一平台工具在2011年分钟级灾备切换演练中发挥了重要作用。

  演练体系分两个层面:技术部门内部演练和跨部门联合演练。目前数据中心已经初步实现演练常态化,定期进行场景演练和技术演练,也多次与业务部门联合组织进行业务应急预案的演练。应急体系可分为事件监测与发现、组织评估影响度、应急处置、后续回顾四个环节,辅以应急预案的制定和演练,尽量主动监测与预防影响业务持续性事件的发生,减少意外事件对业务的影响。

  应急保障是数据中心的部门职责之一, 数据中心一方面通过培训、宣讲等方式, 使员工了解业务连续性管理的概念及目标,另一方面将与业务连续性管理相关的绩效指标分解至各个职能部门,形成具有可操作性的工作内容。数据中心将应急能力作为员工技术能力体系的重要指标之一,加强主动性演练,在一线人员范围内常态化组织场景演练,达到检验预案的有效性和强化员工应急意识的作用,同时重视每次演练后的总结评价。在全员参与应急管理的基础上,业务连续性管理与数据中心的“大一线”运行值班管理制度结合,充分发挥专职值班经理在应急指挥方面的职业素养,以及各部门值班人员的专业技能,通过业务功能、信息安全等九项标杆评估突发事件对业务的影响度, 利用手机短信、电话外呼、VPN远程协作等多种技术手段对突发事件及时响应、快速恢复。

  《中国金融电脑》:如何通过流程管理来保障灾备体系的有效、稳定运行?

  郑仕辉:灾备管理方面,数据中心于2011年底成立了灾备推进委员会,全面推进灾备系统建设与管理力度。灾备推进委员会规划了灾备建设目标,制定了灾备管理规定,明确了灾备相关流程,引导灾备工作从大规模建设向精细化管理转换,从而全方位提升灾备管理水平。通过从生产与灾备环境同步维护、信息比对、灾备监控布署、灾备环境审计、灾备切换演练等五个方面入手,全面管理灾备环境。

  在服务管理方面,以ISO20000服务管理体系为框架提升服务水平,建立了事件管理、问题管理、配置管理、持续性管理、可用性管理、容量管理、财务管理、服务级别管理等21个服务管理流程。通过这些管理流程的建立和持续优化,合理设置绩效指标,使内部的服务水平不断得到提升。

  在信息安全方面, 侧重于以ISO27001体系标准为框架,制定信息安全策略,开发信息安全流程,落实信息安全技术手段,确保了数据信息的完整性、保密性和可用性。

  《中国金融电脑》:在灾备体系建设中,交通银行是否应用了云计算技术?

  郑仕辉:交通银行面向业务服务的生产云建设已走出一条实践之路。交通银行云计算的需求驱动来自三方面,一是银行业务运行和产品创新对IT快速交付能力的要求;二是系统规模扩大对IT运维自动化、标准化的更高要求;三是大量数据报表的高速处理要求。这三个层面都需要云计算技术。

  云计算技术的应用有一个过程,首先要实现基础设施标准化,然后是流程化、自动化和IT服务的标准化。这与IT运维的发展历程类似,第一阶段是集中整合,第二阶段是一些简单任务的自动化,第三阶段是通过云计算的方式实现面向服务转型。交通银行目前构筑了两个比较大的云平台,基于平台提供计算能力和服务,例如系统安装、健康检查、安全审计、灾备建设等IT运维工作都通过云服务平台来实现。

  交通银行的私有云架构由一个独立服务门户,虚拟化基础设施云和自动化服务平台组成,支撑日常性能监控、资产配置信息以及业务流程的自动化服务。这一基于门户和服务目录、框架的服务平台有力支撑了两地三中心的数据中心、同城副中心和异地灾备中心的运维管理。新系统投产从业务部门提出需求,到数据中心进行资源分配和系统安装,到最后交付,传统的做法需要一周左右的时间,而现在只需要几个小时。

  云计算给交通银行带来的效率提升显而易见。原来的系统是割裂的烟囱式的基础架构,资源利用率较低,在实施虚拟化和云计算后,资源利用率大大提高。原来的服务部署是独立进行的,消耗了大量人力物力,现在可以基于需求提供一站式服务,时间成本从原来的一周缩短至几个小时,基于云平台的集中管理更加灵活、高效。

  交通银行灾备体系建设大事记:

  2006年7月,交通银行数据中心正式成立,总建筑面积21 406平方米。

  2007年11月,通过了ISO 20000国际认证,成为国内首家通过ISO20000认证的银行业机构。

  2008年,交通银行“一部两中心”通过了ISO27001体系认证。

  2008年7月成功实施了数据中心和同城备份中心之间的业务系统切换运行和回切,实现了大规模系统灾备切换的自动化,业务恢复时间仅为1.5小时,并做到了零数据丢失。通过管理体系的建设和持续完善,数据中心的管理水平不断得到提升,正式员工目前为170人左右。

  2009 年5 月,交通银行实现了双中心同时运行,将备份中心的内涵转化为“副中心”,将数据中心转变为信息中心。

  2010年,完成了“两地三中心”灾难备份的建设工作,包括上海运行主中心和运行副中心,以及武汉灾难备份中心。

  2011年,在双中心运行的基础上进一步实现海外行核心业务、综合客户信息系统、网银、卡交换系统等关键业务的分钟级灾备切换运行,业务恢复时间控制在10分钟之内。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2012年10月目录
全力打造完善的灾难备份体系——访交通银..
民生银行灾备体系建设日趋成熟——访中国..
面向业务监控的主机联机业务影响分析方法..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多