设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2013年9月
袁俊德:大型银行“两地三中心”运营体系建设实践

中国银行股份有限公司信息中心助理总监 袁俊德

  近些年,随着我国金融服务领域和渠道的逐步扩展,银行IT 系统日趋复杂,客户对银行服务质量的期望不断提高,金融科技监管要求日益严格。在此背景下,国内商业银行普遍加强了数据中心建设,以保障业务快速发展和IT 系统安全高效运营。目前,“两地三中心”模式已逐渐成为国内银行特别是大型银行数据中心建设的共识。中国银行作为全球系统重要性银行,基本建立了“两地三中心”的运营架构,并在此基础上发展形成了一套运营管理体系。

  一、建设背景

  目前,中国银行的数据中心建设经历了四个阶段。第一阶段:2000 年~2003 上半年,通过物理集中将全国分散的IT 系统集中到五个数据中心运营;第二阶段:2003 下半年~2009 年10 月,开展全行信息系统逻辑集中和“两地三中心”的规划和建设;第三阶段:2009 年10月~2011 年底,分批次通过数据迁移和新系统投产将全行业务系统整合集中,形成了“两地三中心”的运营体系;第四阶段:2011 年~ 今,针对“两地三中心”深化运营管理并着手海外数据中心整合。其中,第二、第三两阶段也是中国银行IT蓝图建设阶段。

  “两地三中心”理论上是将IT系统的高可用性和灾难恢复高效整合的数据中心运营体系。严格意义上讲,高可用性和灾难恢复有不同的含义,在ISO20000 描述中高可用性是Availability 的范畴,强调组件冗余,使恢复时间(RTO)最小化,而灾难恢复是Continuity 的范畴,强调系统可恢复,既有RTO 要求也有数据恢复点(RPO)要求。无论高可用性还是灾难恢复都需要应对不同等级的故障。故障等级通常分为系统级、场所级和灾难级三个层级。其中,系统级主要对应单一组件(如系统或存储)故障;场所级对应电力中断、机房火灾水灾等场所故障;灾难级对应地震、战争、瘟疫等地域灾难。一般而言,“两地三中心”的同城两中心主要解决高可用性问题,即系统级和场所级故障;异地中心解决灾难级故障问题,保障在地域发生灾难的情况下的系统恢复。所以,“两地三中心”是以合理的代价保护业务的持续运营和数据的完整安全,并在灾难发生后能够尽快恢复信息系统的运行以减少业务停顿。

  通过对全行业务保障、数据安全和运营效能等方面的综合考虑,并经过两次海外知名公司咨询,中国银行确定了“两地三中心”的数据中心建设目标,分别命名为生产中心、同城备份中心和异地灾备中心。围绕这一目标,伴随IT 蓝图工作的开展,中国银行同步进行数据中心的环境建设, 基本建立了“两地三中心”运营体系,保障了信息系统的安全平稳运行,并于2011~2012 年组织了四次较大规模的同城或异地实战切换演练,验证了运营体系的有效性,为中国银行业务服务和发展提供了有力保障。

  二、运营架构

  如何有效实现“两地三中心”的功能定位,是摆在所有银行同业面前的实际问题。简单而言,“两地三中心”的目标是实现同城高可用和异地容灾的结合,要实现这个目标需要全行科技体系统一规划,统一部署。为此,中国银行制定了业务系统的可用性分级标准和灾备定级标准,这两个标准规定了某个应用系统是否在同城或异地部署,是应用级还是数据级。在可用性分级标准中,根据业务系统运行的服务影响和时效要求等因素,将业务系统划分为5 个等级,明确了不同的可用性设计指标、恢复时间和技术架构。在灾备定级标准中,根据系统中断后对客户服务产生的影响、用户的容忍中断时间以及监管对灾难恢复的要求等,将业务系统划分为4 个等级,并明确了不同的恢复时间目标(RTO)和数据恢复点目标(RPO)。在这两个标准的指导下,逐步推进“两地三中心”基础环境和各应用系统的部署与建设。

  同城两中心要保障系统高可用性以及数据的一致性和完整性。高可用性通常分为Active-Standby、Active-Query 和Active-Active 三个模式,前两种模式需要系统切换,后一种是双活,双活是中国银行同城两中心规划设计的最终目标。无论是哪种模式,数据的同步传输是前提,只有实施数据同步才能确保数据“零丢失”,同时在设备、系统、网络、应用等各层面相互配合,系统才具备高可用性。目前在同城两中心高可用技术方面,主机和开放平台的相关技术发展并不均衡,特别是开放平台仍有比较大的局限性,所以在不同平台的系统上可用性存在一定差异,当前完全实现同城双活尚不具备条件。因此,中国银行在生产中心主机平台部署SYSPLEX架构,开放平台部署集群架构,在保障本地生产系统高可用性的基础上, 在同城备份中心主机采用GDPS/PPRC HyperSwap 架构,高等级的开放系统采用存储数据同步技术, 实现同城应用级备份的策略, 最大限度地保障数据安全和关键系统的高可用性。尽管同城两中心仍是Active-Standby 模式, 但在数据同步的基础上可以实现关键系统的快速切换。一旦生产中心发生场所级重大故障,可在较短时间内将关键业务系统切换到同城备份中心,提供银行的主要业务服务,降低切换异地灾备中心造成的数据丢失和恢复时间长的风险,同时也为决策赢得宝贵的时间。当然, 在目前不能实现双活模式的条件下, 中国银行仍在研究进一步提升生产中心本地存储高可用性的解决方案。

  根据规划,中国银行在同城备份中心按照业务系统的可用性分级标准实现高等级应用系统的高可用性保护,在异地灾备中心按照业务系统灾备定级标准实现全系统不同等级的灾难备份策略。技术上,主机和开放平台均采用存储远程异步数据转输,同时开发了自动恢复脚本,实现了主机平台和众多开放平台系统按标准流程在异地灾备中心的快速恢复,满足了监管要求的RTO 和RPO 指标。

  网络方面, 同城两中心通过DWDM 互联,同时同城两中心分别与异地灾备中心通过SDH 互联,实现了“两地三中心”之间环型高速互联网络,在任一段线路故障时,三个中心仍保持互通的冗余架构。全辖各分行网络线路均通过两个不同运营商分别接入生产中心和异地灾备中心,实现了分行与数据中心之间的高冗余接入。同时生产中心和异地灾备中心均部署了Internet出口, 实现了网银业务的多点接入,在几个关键渠道业务系统上建立了生产中心与异地灾备中心接入层的双活架构。高可靠的网络架构为“两地三中心”的安全运营提供有效支撑。

  “两地三中心”运营架构不但提供了数据安全性以及业务高可用性和连续性的有效保障,也为全行科技体系提供了重要的基础环境。在目前“ 两地三中心” 以Active Standby 为主的模式下,除存储设备必须提供同步或异步的数据保护外,其他灾备主机或开放平台服务器资源均可用于开发或测试环境。围绕这一目标,中国银行运用和创新了多项数据备份和系统恢复技术,制定并不断修正标准切换流程,在保障整体架构容灾能力的前提下,最大限度地实现了同城备份中心和异地灾备中心的资源共享。根据规划,中国银行在异地灾备中心建立了完整的开发与测试环境,在同城备份中心建立与生产运维密切相关的准生产和投产准备环境。在中国银行IT 蓝图建设期间以及正在进行的海外数据中心整合工作中, 在异地和同城分别建立了数据迁移、切换演练、并行演练等多套环境。“ 两地三中心” 的运营体系有效地支持了中国银行业务和科技工作的全面发展。

  三、管理策略

  根据中国银行IT 发展战略,历经近十年的艰苦实践,逐步形成了统一的信息中心组织架构,建立了“两地三中心”的运营体系,主要体现在一体化策略、标准化策略和集约化策略。

  中国银行“两地三中心”的运营由信息中心统一管理。一体化策略主要包括组织架构一体化、技术管理一体化、系统维护一体化、监控管理一体化和变更管理一体化等。组织架构一体化指,分中心采用和中心本部相同或相近的管理团队和技术团队划分,并实现在组织架构上的对口管理和对口联系。技术管理一体化指,三个中心在架构设计、环境规划、版本管理、配置管理、容量管理等技术方面实行集中管控,包括技术架构、技术方案等进行统一设计和评审,确保三个中心的技术一致性。系统维护一体化指,要求三个中心在运行维护、投产测试、系统验证、PTF 实施、灾备演练等工作中,统一指挥、协同工作或密切进行转段衔接,发挥整体合力。监控管理一体化指,通过自动化的监控和客服平台,实现三个中心对设备、网络、系统、应用、交易的实时监控、集中报警、工单生成和短信通知,实现监控事件的集中管理。变更管理一体化指,规定各中心在变更申请、变更审批、变更执行、变更复核和变更后评价方面使用同一套变更管理平台,并由统一的变更管理组织进行审批。

  标准化策略要求三个中心在执行相同工作时采用信息中心的统一标准。标准化策略包括技术标准化、流程标准化和管理标准化三部分。技术标准化规定信息中心IT 运维相关的版本管理规范、技术参数规范、投产实施规范、系统维护规范、应用准入标准、网络接入标准、硬件布线标准等技术标准或规范,在三个中心具有相同的执行约束力。流程标准化指信息中心IT 服务管理相关的故障管理、变更管理、配置管理、容量管理、连续性管理、可用性管理、事件管理、服务请求管理等工作流程,在三个中心按同一标准执行。管理标准化要求在考勤管理、休假管理、办公管理、环境管理、培训管理、绩效考核等管理方面,执行统一的管理标准。

  集约化水平是衡量“两地三中心”运营体系运转效率的重要依据。集约化策略包括环境集约化和人员集约化两个方面。在环境集约化方面,生产中心承担全部生产系统的运行保障任务;同城备份中心在日常承担准生产、并行演练、投产预演等非生产环境的运行保障任务,在发生场所级灾难时停止各非生产环境运行,接管生产系统的运转;异地灾备中心在日常承担版本维护、应用开发、集成测试、用户测试、压力测试、数据迁移等非生产环境的运行保障任务,在发生城市灾难时停止各非生产环境运行,接管生产系统的运转。这一策略在保障容灾能力的同时提高了资源的复用率,解决了灾备建设资源投入大、资源利用率低的矛盾。在人员集约化方面,各中心人员除需具备日常的运维能力,还需同时具备灾难发生时的系统切换、生产接管和生产运维能力。在某中心工作任务繁忙时其他中心的对口人员可共同参与工作,增强了各中心人员的复合工作能力,实现各中心间的人员动态调配,提高了人力资源效率,并减少了忙闲不均的现象。

  构筑在运营架构和管理策略上的“两地三中心”运营体系在中国银行近几年异常繁重的IT 蓝图建设和生产运维保障工作中,同时有效支撑了开发、测试、演练、投产、运维等多线工作任务,发挥了重要作用。

  四、经验挑战

  在中国银行“两地三中心”运营体系的规划、建设和运用过程中, 在体系建设上积累了一些经验。首先,明确的建设目标是取得“两地三中心”运营体系建设成功的基础。充分利用自身条件,制定符合银行服务要求的建设目标,并围绕目标开展全行的调研、咨询、沟通、决策等工作,使“两地三中心”建设成为全行的共识。其次,制定全行业务与科技体系统一的实施策略是取得“ 两地三中心” 运营体系建设成功的保障。明确业务系统的可用性分级标准和灾备定级标准,持续推进业务连续性计划(BCP) 和灾难恢复计划(DRP)的有机结合,在业务需求、软件开发、资源统筹、环境部署、运行维护等各方面步调一致,形成全行科技体系的整体合力。再次,有效的一体化管理策略是取得“两地三中心”运营体系建设成功的关键。建设符合实际需要的运营管理体系,统一的人员管理、统一的资源调度、统一的技术与流程标准,使信息中心在运营管理工作中能够高效运用各类资源,保障运营体系建设的成功落地。

  在“两地三中心”运营管理体系的建设实践中,我们也摸清了体系发展所面临的诸多具体挑战。伴随着中国银行的IT 蓝图建设,我们建设了两个新的数据中心,即生产中心和异地灾备中心,而同城备份中心是原有老的数据中心,在基建规模上与两个新中心存在差距。这些年随着运营规划的迅速扩大,同城备份中心在场地、电力等方面产生了瓶颈,在一定程度上制约了同城高可用系统部署的规模。同城数据同步备份技术对通信线路的稳定性要求较高,而目前技术背景下的连通环节涉及的节点比较多,偶发的链路抖动有时会引起交易响应时间抖动,从而短时间影响系统交易性能。众多开放平台系统的自动化切换能力仍显不足,导致其恢复能力成为整体恢复效率的短板,还需要进一步探索相应的技术提升手段。虽然我们成功组织了多次同城或异地的实战演练,但多场景高可用恢复能力和非计划性灾难恢复能力还需经历实战检验。“两地三中心”架构在高可用性和灾难恢复方面的能力不能等同业务连续性的能力,我们在完善灾难恢复计划(DRP)建设的同时,仍需持续推动全行业务连续性计划(BCP) 的建设,从组织架构、业务服务、系统规划、“两地三中心”建设、人才培养等方面优化创新,推进“两地三中心”运营体系不断进步。

  当前中国银行的“两地三中心”运营体系虽已基本成型并实际运转,但其建设完善之路仍然任重道远。为满足银行业务发展要求、破解体系自身发展瓶颈,未来我们需要跟踪业界技术发展前沿,综合运用智能化、自动化等新技术,增强基础环境的高可用性、可扩展性和弹性,实现资源高效配置和产能持续提升;需要借鉴业界管理发展思路,合理调整组织架构和职能分工,优化整合现有管理策略和工作流程,实现合规运营与高效运营的平衡统一,并培养形成一支复合型的IT运维管理队伍。这样才能发挥“两地三中心”运营体系对银行业务的重要支撑作用,并实现体系自身的可持续发展。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2013年9月目录
陈尚元:数据中心IT运维管理实践与探索
打造新型金融IT运维管理模式——访中国光..
袁俊德:大型银行“两地三中心”运营体系..
张春林:招商银行“双中心运行”管理实践..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多