设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2020年4月
非常时期的运行安全保障

 中国建设银行运营数据中心主任王立新

  经过此次疫情大“考”,我们也应对灾备方案、业务连续性措施进行进一步的反思。在我们以往的灾备方案中,主要关注技术措施和基础设施的失效,但这次应急工作中,数据中心基础设施运转良好,供水供电和通讯网络正常,只是外部社会环境发生了变化,数据中心被封闭、人员被阻隔、备件无法送达,形成了运维人员与运维对象的“物理隔离”。后续,我们要在人员组织、任务调配、技术储备等运维管理方面进一步完善相关措施,充分发挥云计算、分布式架构等技术优势,丰富应急场景,防患于未然,进一步提升复杂情况下的运维保障能力。

  岁末年初,突如其来的新冠肺炎疫情给建设银行数据中心安全运行工作带来了前所未有的挑战:

  一是数据中心的南湖生产园区正处于此次疫情最严重的武汉地区。该园区是建设银行两地三中心架构的重要组成部分,部署了150余套系统、超万台物理设备,承担着渠道多活和大数据系统的重要生产任务,直接关系到业务系统运行的连续性。

  二是疫情期间,全民进入“在线社会”的状态,“零接触”的服务需求、“纯线上”的服务方式成为金融服务的主要形式。作为提供在线金融服务的主要载体,信息系统安全稳定运行的重要性,在此非常时期更加凸显。

  三是为贯彻落实党中央、国务院阻击疫情的决策部署,履行国有大行的社会责任,建设银行迅速出台了一系列金融服务措施,需要信息系统迅速予以实现、支撑。1月24日~3月10日,数据中心累计实施变更2000余次,基本每天都有版本敏捷投产,实施频率远超平时,对系统稳定性带来新的挑战。

  面对以上挑战,运营数据中心迅速进入“战时状态”,深入分析疫情影响,沉着应对,基于建设银行多年数字化转型和金融科技创新的技术优势,在最短时间内研究推出了一系列非常规运维举措,有效保障了全行信息系统的安全稳定运行,确保了全行经营管理的稳定、有序,成功筑起了抗击疫情的运维堡垒。

  一、数字化转型造就应对疫情的线上优势

  数字化转型是建设银行以新金融行动推进金融供给侧改革、开辟“第二发展曲线”的关键,建设银行依托于新一代核心系统和金融科技战略打造的数字化实战能力,在此次疫情期间得到了充分的展现。新一代核心系统作为建设银行数字化转型的核心平台,包含了业务流程再造、技术创新与业务价值融合、技术架构变革等众多突破。金融科技战略“TOP+”的实施,以科技和数据双轮驱动引领金融创新,积极引入云计算、大数据、人工智能、区块链等新技术并规模应用,迅速形成了生产能力。疫情期间,建设银行在满足日常金融需求的基础上,迅速开辟线上贷款绿色通道等数十个产品,扩容线上金融服务场景,极大满足甚至引领了客户金融需求。从后台交易笔数(信息系统口径,不含查询类交易)来看,2018年、2019年全年线上业务(不含自助渠道)交易占比分别为73.02%和75.71%,而2020年1月(疫情前)达到了81.71%,比2019年有较大增长。疫情发生后,柜面渠道交易量出现明显下降,而线上渠道交易量与2019年相比却并未下降,甚至在春节后还有了小幅增长。应该说,数字化转型带来的“线上”优势,为我们快速应对突发状况、保持客户服务的连续性奠定了基础。

  二、新技术的广泛应用实现了基础设施资源的敏捷供给和高效维护

  随着数字化转型和金融科技战略的大力推进,云计算、云网一体化、IT资源虚拟化、软件定义网络等新技术在数据中心相继广泛应用,也使得数据中心在积极应对本次疫情影响时有了可靠的技术支撑。

  根据建设银行规划,在云计算方面,由融合私有云和公有云技术栈的“建行云”为我行战略发展提供双模支撑:私有云技术栈提供稳态支撑,主要助力我行稳健经营,于2013年投产,历经6年多锤炼,完整支持着新一代核心系统运转。公有云技术栈提供敏态支撑,主要助力我行创新发展,于2018年建成,已投产3.7万台云服务器,有效支持了敏态自营业务和外部客户托管业务的快速部署。与此同时,我们自主研发的云管理平台实现了对“建行云”的统一管理,基础设施管理、供给、软件部署等操作全部可以远程、敏捷高效地“一键式、自动化”完成,从而实现了技术操作人员与基础资源的物理分离。疫情期间,武汉南湖园区人员、设备进出不便,但通过使用云管理平台,不仅完成了2000余次变更、800余次设备网络的故障维护或隔离,保证了应用系统和基础设施的正常运转,同时还为新增服务快速供给了3800核CPU、130T存储空间、近百套数据库,实施频度和供给量远远超过了正常时期。

  三、跨地域一体化运维体系奠定业务连续性的组织保障

  2018年,为适应数字化时代“云数据中心”的建设需要,建设银行对数据中心机构进行了整合,成立了运营数据中心,统一负责“两地三中心”的管理和运行,实现了数据中心的“六统一”:统一的机构设置、统一的运维体系、统一的制度标准、统一的资源调度、统一的灾备体系、统一的考核管理。信息系统运行维护管理也突破物理机房限制,采用跨地域、规范化、资源复用的“一体化”模式。通过整体的基础设施规划设计,使用统一的流程、制度、技术标准和工具平台,建立统一的生产监控、调度、服务、应急处置体系,采取统一的安全风险管控措施,实现数据中心一体化管理,建立了基于ECC服务台、一线运维、二线支撑、专家支持四个层级的一体化运维支持体系。

  一体化的运维体系极大降低了特殊情况下运维任务在“中心”之间调度分配的复杂性。疫情发生后,数据中心紧急启动应急预案,由疫情较轻的北京地区接管了原来由武汉地区人员负责的大部分工作,保障业务系统连续对外提供服务。根据预案,对武汉园区负责的应用、主机、平台、网络、环境、安全、风险、公有云、大数据云、监控和服务台等11个一级技术领域进行了逐项细分,视工作性质和影响的不同进行了程度不同的对口接管。对于物理设备、通讯线路维护等必须属地化的工作领域,将工作进一步细分,配置操作等也纳入远程运维,只保留个别物理操作,尽最大可能减少现场人员数量。如基础软件平台领域,北京地区自除夕开始即接管了南湖园区两万多个操作系统实例和千余个数据库实例的日常监控、巡检和应急工作,南湖团队则改为通过VPN进行二线支持。通过密切的沟通配合,共处理健康检查异常项和次要告警3000余项,主要告警600余次,完成紧急变更近百个,保障了基础软件平台的运行平稳。

 

  四、分布式云运维提供可信可控的远程运维服务

  疫情期间,为避免人员集中带来的交叉感染风险,数据中心紧急启动分布式云运维模式,将现场运维人数控制在最小可接受范围。大部分运维人员通过远程运维的方式进行监控、服务申请审批、变更、事件处置等运维工作。现场和远程的工作通过多方线上会议、即时通信软件、流程机器人等多种方式实现协同,提升效率;采取动态令牌、短信、密码、访问授权、精细控制等多重水闸式的安全防护机制保证远程访问的可信可控。

  针对远程运维工作内容的不同,采用不同安全等级的VPN接入授权机制。为保障远程运维可信可控,远程登入生产系统需通过VPN和安全运维管理系统双重身份认证,如需对生产系统进行变更,还要进一步获得双人授权后方能进行。安全运维管理系统内设多重控制机制,可防范内部人员在运行维护过程中的恶意行为和误操作造成重大事故,有效降低生产系统运行维护风险。

  考虑到远程运维工作中事件处置的特殊情况,建立了多种信息共享机制。在原有电话会议的基础上,使用建设银行内部即时通信软件,建立以系统划分的纵向群和跨不同领域的横向群,快速分享关键信息,使用自动化的流程机器人自动发送应急处置进展信息。在疫情期间的几次事件应急组织过程中,这种信息共享模式对效率的提升得以验证。

  同时,安全团队对远程运维系统进行了专项准入风险评估、权限控制、漏洞扫描和渗透测试,7×24小时实时监测来自VPN通道的各类高中低风险,包括针对VPN账号、手机号、短信验证码的暴力破解,涉及疫情电子邮件中的病毒和木马等,全面堵塞安全漏洞。

  五、应用版本安全敏捷投产助力疫情保障业务快速上线

  为全力抗击疫情,各类疫情保障优化需求纷至沓来,为保障此类需求快速投产,数据中心对疫情期间版本投产过程进行了流程优化,利用版本发布自服务,提高版本发布效率。通过对应用版本投产过程进行抽象,形成标准投产变更步骤,在申请阶段预先设定配置参数、分组执行范围及执行顺序,通过线上审批,最终实现“一键式投产”和“预约式自动投产”。版本发布自服务通过流程整合,打通了开发、测试、生产之间的壁垒,提升了版本发布的实施效率,规范了应用发布变更过程,降低了生产运维风险。以2月某版本日为例,共计发布100余个版本,其中80%完全采用自服务敏捷投产方式,其他采用手工和自服务结合的方式。

  在提升效率的同时,为保障投产版本质量,数据中心明确了版本投产质量标准,严格功能测试、非功能测试及版本检验测试准入准出标准,杜绝带病版本投产;严格管控投产范围,综合评估疫情投产能力与发生异常的影响,优先保障疫情、监管和解决生产问题的需求,兼顾其他需求。疫情期间,建设银行先后成功上线了智慧社区管理平台、“复工复产助小微”快应用等新系统,并对手机银行、网上银行、网站等渠道系统针对疫情进行了优化更新,投产后系统运行平稳,未发生版本质量引发的生产问题。

  总体来说,应对突发的非常状况,要保障系统的安全运行,既需要一定的技术积累,也需要敏捷的运维组织,但最终的实施还是要依赖一支技术过硬、无私奉献的骨干队伍。疫情发生时正值春节假期,数据中心有一半以上的人员离开了工作地,但疫情就是命令,保障就是责任,随着运维任务的下达,全体人员立即进入了工作状态。特别是在武汉,由于人员和交通管控的不便,十几名同志组成“突击队”进驻园区封闭运维,吃、住、工作24小时都在园区,坚持了一个多月。期间克服了家庭、环境等重重困难,也克服了心理、应急处置等重重压力。正是有这么一支顾大局、讲奉献的技术人员队伍,才使得技术优势得以发挥,保障措施得以实施。

  同时,经过此次疫情大“考”,我们也应对灾备方案、业务连续性措施进行进一步的反思。在我们以往的灾备方案中,主要关注技术措施和基础设施的失效,但这次应急工作中,数据中心基础设施运转良好,供水供电和通讯网络正常,只是外部社会环境发生了变化,数据中心被封闭、人员被阻隔、备件无法送达,形成了运维人员与运维对象的“物理隔离”。后续,我们要在人员组织、任务调配、技术储备等运维管理方面进一步完善相关措施,充分发挥云计算、分布式架构等技术优势,丰富应急场景,防患于未然,进一步提升复杂情况下的运维保障能力。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2020年第04期目录
夯实运维管理 发挥科技优势 助力打赢疫情..
抗击疫情, 农业银行数据中心值班长在行..
非常时期的运行安全保障
如何做好疫情背景下银行数据中心的安全防..
疫情下的坚守——中信银行数据中心系统运..
“光”速抗疫,保障安全运营, 助力复工..
华夏银行数据中心厚积薄发 智能运维助力..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多