设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2024年8月
广发银行数据中心副总经理唐海勇:夯实分布式数据库核心底座,保障分布式核心系统平稳运行

广发银行数据中心副总经理 唐海勇

  近年来,随着银行业数字化转型的持续深入、业务和用户需求的不断升级以及客户对服务质量和数据安全要求的不断提高,传统集中式银行核心系统已难以满足当前业务的发展需求。作为银行应用系统的大脑——银行核心系统在开放性、稳健性和拓展性上面临着更高的要求。顺应数字化转型趋势,广发银行加强关键核心技术攻关,开展核心系统分布式转型实践,完成了从大型主机到分布式架构的自主可控转型。在分布式核心系统建设和运维过程中,广发银行围绕保障核心系统稳定运行和提升运维服务水平这两个总体目标,增强分布式数据库的稳定性、高可靠性和可扩展性等基础能力,夯实分布式数据库的核心底座,赋能分布式核心系统平稳运行。

  一、分布式数据库在分布式核心系统中的重要性

  分布式核心系统是广发银行数字化转型的基石,涵盖账户管理、存贷款业务、支付结算、风险管理等多个关键业务领域。这些业务领域对数据库系统的要求极高,不仅需要处理海量的交易数据,还需要保证数据的一致性、完整性和安全性。过去,传统的银行核心系统运行在集中式架构下,使用专用的硬件设备,运维成本较高;同时受限于垂直扩容瓶颈,无法支撑海量业务处理,难以平滑扩容;此外,集中式的单体架构一旦发生系统故障,难以实现快速自愈,容易对业务造成全局性影响。而在分布式架构下,分布式数据库通过将数据分布在多个节点上,利用并行处理和负载均衡技术,可有效提升系统的处理能力和扩展性;通过多分片、多副本机制和故障转移策略,可确保核心业务系统的高可用性和数据的安全性。

  因此,在监管政策的严格要求之下,为适应金融行业新业务模态的迅速发展,银行业务系统尤其是分布式银行核心系统需要确保高可靠并且稳定运行。其中,为保证银行核心业务7×24小时不间断服务,时刻为客户提供稳定、快捷的金融服务,分布式数据库发挥着至关重要的作用。

  二、分布式核心系统中分布式数据库面临的挑战

  分布式数据库天然具备高并发、高性能、高可用和易扩展等特性,但在实际应用于分布式银行核心系统时,仍面临诸多挑战。

  一是数据一致性与事务性挑战。银行核心系统交易对数据的一致性要求极高,任何数据不一致都可能导致严重的财务问题。在分布式环境下,如何确保跨节点间事务的一致性和完整性是一个复杂的问题。

  二是高可用性与容错性挑战。银行核心系统需要7×24小时不间断运行,任何系统故障都可能对业务的连续性造成重大影响。因此,分布式数据库必须具备高可用性和强大的容错能力,以应对节点故障、网络中断等突发情况。

  三是高性能与可扩展性挑战。随着银行业务量的不断增长,系统需要具备高性能和可扩展性,能够做到优雅扩展以及对应用透明,以应对高并发交易和海量数据处理带来的挑战。

  四是安全性与合规性挑战。银行数据涉及客户隐私和资金安全,因此银行必须坚守安全合规底线,严格遵守相关法律法规和监管要求。基于此,分布式数据库需要具备强大的安全机制,以确保数据传输、存储和访问的安全性。

  五是运维与管理挑战。分布式数据库的运维和管理复杂度远高于传统集中式数据库。如何有效地监控系统状态、做好应急响应和快速恢复、优化分布式性能、管理数据备份和恢复等,是运维团队面临的重要挑战。

  围绕以上几个问题,广发银行数据中心结合分布式数据库自身的能力,构建了分布式核心系统的数据库核心底座,在高可用架构、高性能优化以及高效运维等方面,更好地保障分布式核心业务系统的平稳运行。

  三、广发银行分布式数据库核心底座建设实践

  1.基于业务模块的多租户管理

  在分布式核心系统建设中,广发银行基于DDD领域建模方法,将银行核心业务模块进行解耦,拆分为业务服务领域和公共服务领域,并通过对业务服务领域和公共服务领域的分析、抽象,最终构建了存款、贷款、核算、票据等基础业务能力模型以及客户、运营、计价、产品、参数、数据等公共业务能力模型;同时结合分布式数据库集群的多租户管理能力,将不同的业务模块分为不同的租户(如图1所示),将每个租户(业务中心)划分为不同的数据分片,在每个分片部署多个主备副本,以确保高可用。

图1 基于业务模块的多租户逻辑部署

  基于分布式数据库的分布式处理能力,广发银行采用分片技术将数据分布在多个数据节点上,以提高系统的高并发处理能力;采取多副本部署数据节点的方式提高单节点故障的高可用性;按照联机、批量、查询和运维等不同的业务类型区分计算节点,以保证资源隔离。

  2.数据一致性和分布式事务管理

  银行核心系统的交易对数据一致性要求极高,广发银行通过分布式数据库,基于内部的一致性协议算法和全局事务管理组件,确保跨分片节点之间的数据一致性和完整性;同时,通过优化分布式事务的提交流程和回滚流程、缩短锁等待时间等方式提高分布式事务的处理效率。

  3.高可用性和容错性

  分布式数据库的高可用性是保证分布式核心系统业务连续性的前提。广发银行利用分布式数据库的故障自动检测和切换机制,在当前节点发生故障时能够迅速切换到其他节点继续提供服务;在部署架构上充分利用分布式多分片的优势,使单个节点故障只会影响当前节点,避免了对全局业务的影响;采用多副本机制和数据冗余策略,制定完整的备份恢复策略,进一步提高了系统的容错能力和数据安全性。

  4.性能提升和可扩展性

  与传统集中式数据库相比,分布式数据库能够根据业务需求和数据量增长情况动态调整数据分布节点和计算节点资源,提升分布式数据库的处理性能和可扩展性。在实际应用中,广发银行基于数据节点的扩展策略,采用Range模式对应用表进行分片,当应用需要扩容新的分片时,通过分片路由算法将业务数据存入新的分片,不需要进行存量的数据迁移;对于计算节点则采用在线扩展策略,实现应用无感,由负载均衡设备实现流量均衡。

  5.安全与合规性

  在分布式数据库的应用和运维过程中,广发银行始终将数据安全与合规性放在首位,通过国密算法支持、用户和资源访问控制、审计日志、数据备份等安全措施,确保数据的机密性、完整性和可用性。

  6.分布式数据库运维体系建设

  分布式架构的组件众多、网元链路复杂,整个分布式核心系统中数据库集群管理的节点可以达到上千个。在如此复杂的架构下,快速定位故障点排除异常干扰因素、应急恢复业务,不仅需要分布式数据库管理平台具备自动切换和自愈能力,还需要金融机构围绕分布式数据库构建运维体系,与现有的数据中心监控、告警和巡检等运维管理平台对接,通过自动化工具建设和流程优化,及时发现故障并快速恢复业务,降低运维成本,提高运维效率。

  基于分布式数据库的运维管理能力,广发银行数据中心对接现有的CMDB配置库、监控中心、自动化切换平台、数据库运维管理(DBPaaS)平台、日志平台以及巡检和集中备份等功能模块,打通配置管理、监控应急、切换演练、容量管理和备份恢复等运维流程,实现故障及时发现、快速应急响应、自动切换、自动化巡检和备份数据恢复。

  四、广发银行分布式核心系统数据库建设成效

  1.联机批量业务双活运行

  广发银行分布式核心系统采用“两地三中心”的高可用架构(如图2所示),生产中心、同城中心和灾备中心分别承载不同的业务流量。应用侧采用竖井式架构,跨中心之间相互不访问,由流量分发层实现跨中心的流量转发;数据库侧由分布式数据库确保跨中心的高可用。

图2 广发银行分布式核心系统架构

  三中心的外围应用系统通过域名的方式访问核心系统,各中心均承载一定的业务流量。业务流量经过流量分发层按照一定的流量比例进行配置转发,实现流量配置的动态调整。应用服务通过负载均衡访问数据库节点,分布式数据库中主节点运行在生产中心。

  (1)联机业务运行情况

  分布式核心系统联机业务通过流量配比实现生产中心和同城中心双活,支撑全行几千万客户的业务稳定运行,使交易平均响应时间保持在70毫秒左右,高效满足了“双十一”等高并发访问场景下的性能要求。

  (2)批量业务运行情况

  分布式核心系统具备批量复用联机处理能力,实现批量业务的联机处理以及生产中心和同城中心同时跑批。经过新架构的设计和实施,广发银行日终批量运行时间由原来的220分钟缩短为130分钟,而且分布式数据库能够支撑峰值超过20万TPS的业务量,极大地提升了分布式架构下核心系统的处理能力。

  (3)业务连续性演练验证高可用能力

  在2023年中国人民银行组织的业务连续性实战演练中,广发银行顺利完成了分布式核心系统在无预知前提下整体切换到同城站点接管运行,充分验证了核心系统的高可用能力。在2024年的业务连续性演练中,广发银行支付类及相关渠道类应用系统也参与其中,并且同城接管的时间更长,充分验证了整个应用系统群集的可用性和稳定性。

  2.建设数据库统一运维管理平台

  广发银行通过建设数据库运维管理平台(如图3所示),整合现有集中式和分布式数据库的运维管理能力,构建了统一门户对数据中心当前生产环境的主要数据库进行统一管理和一体化运维。基于DBPaaS平台的6项基础能力,广发银行形成了资源交付、运维操作、性能容量分析和应急处理等4个统一的服务目录,支撑数据库自动化运维。此外,DBPaaS平台提供标准化的接口与外围平台对接,提升了数据库的运维效率。

图3 广发银行数据库运维管理平台

  目前,广发银行DBPaaS平台已能够支持多种类型的数据库,覆盖20多种资源交付场景、80多种运维操作场景、40多个性能容量分析菜单和50多种应急处理场景,屏蔽了数据库类型间的技术差异,显著提升了数据库自动化运维水平。

  3.制定“1-5-10”运维目标

  为满足数字化运维及业务连续性要求,广发银行数据中心牵头启动了“1-5-10”运维工程,基于“1分钟发现、5分钟定界和10分钟应急”的运维目标,从运维规范化、数据库变更管控、监控治理以及应急流程优化等维度着手,提升分布式数据库的运维水平,保障分布式核心业务系统的稳定运行。

  (1)规范化运维和变更管控

  广发银行制定了分布式数据库运维及开发规范,明确了数据库在安装部署、参数基线配置、应用开发和数据库变更管理等方面需要遵循的原则;同时通过SQL扫描和DDL规范检查等保障开发规范的落地执行,提前规避因数据库变更和应用SQL性能问题引发的风险。

  (2)监控告警及应急流程优化

  广发银行将监控中心分布式数据库推送的告警信息进行压缩和分级管理,重新梳理致命告警、重要告警和一般告警等告警级别,并针对不同级别制定相应的应急响应策略,降低无效告警的影响,及时发现引起故障根源的告警信息,以便快速响应和应急恢复业务;同时基于分布式数据库的故障自愈能力,构建切换、重启、限流、隔离和扩容等核心应急能力,满足不同时效和场景下的故障应急恢复需要。

  五、总结

  近年来,监管部门对数据中心安全生产保障的要求不断提高,银行业务和技术创新持续迭代演进,银行信息系统在业务连续性保障方面面临着更为严峻的挑战。分布式数据库作为支撑分布式核心系统的基础设施底座,其高可靠和高性能运行成为提升核心系统服务效率、保障数据安全的重要基础。未来,广发银行数据中心将以“1-5-10”的运维目标的实现为契机,逐步提升分布式数据库的高可用性和稳定性,增强变更风险预防、系统监控和故障应急处理能力,提高运维韧性,保障分布式核心业务系统的持续稳定运行。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
平安证券首席信息官张朝晖:打造高质量算..
中国工商银行数据中心总经理刘方洲:守正..
中国农业银行数据中心总经理佟梅:打造安..
交通银行数据中心总经理孙磊:算力为本,..
邮储银行运营数据中心副总经理巫建刚:算..
兴业银行数据中心总经理吴上荣:稳固算力..
广发银行数据中心副总经理唐海勇:夯实分..
中国银联信息总中心副总经理张翔:稳固算..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多