兴业银行数据中心总经理 吴上荣
当今世界,信息技术日新月异,新兴技术已全面融入社会生产生活,深刻改变着全球经济格局、利益格局和安全格局。数字化发展进程和迭代速度不断加快,推动数字技术与传统产业更深度融合,新的业务发展趋势也对数字化转型提出了更高要求。围绕“以极致客户体验为核心目标”,兴业银行需要更敏捷的架构来适应快速变化的市场、更高效智能的数据处理和服务能力来驱动经营决策。在兴业银行数字化转型推进过程中,数据中心始终秉持“安全、可靠、高效”的运营管理目标,依托云计算、大数据、人工智能等新兴技术,积极探索资源供给的自动化、运维体系的智能化,力求打造先进高效的算力体系、数智化的运维体系,建设高质量云化绿色数据中心。
一、打造先进高效的算力体系
在金融机构数字化转型的过程中,云计算技术被广泛应用。相比于传统的IT基础设施架构,云计算能够实现资源的按需服务、快速部署、弹性伸缩、持续可用和超大规模计算,可有效提高金融机构数据中心的运营效率。随着云计算技术的持续演进,云平台具备IaaS、CaaS、PaaS一体化管理调度的能力,CaaS和PaaS服务丰富了云计算技术体系,进一步提升了资源的利用效率。在技术演进过程中,兴业银行积极探索先进高效的算力云架构,实现先进、高效、开放的数据中心运营。
1.资源统一池化,实现资源高效利用
传统虚拟化技术通过对物理基础设施进行虚拟化,可对上层业务应用屏蔽底层物理基础设施,其通过建设集成平台串联、整合、调度多类传统虚拟资源,在一定程度上提升了资源供给效率。但传统虚拟化技术缺乏PaaS和CaaS资源调度能力,在资源利用效率提升方面仍存在短板;此外,在集成和适配不同供应商、不同技术栈的底层物理基础设施方面,其也需要平衡大量资源投入和资源利用效率提升之间的关系。
云计算是虚拟化技术的进一步发展和变革。相比虚拟化,云计算在弹性伸缩、按需调配及编排、IT运营等方面更加优秀和完善,并且可以支持超大规模的计算和存储、跨区域的网络架构等。由云平台提供云化资源池成为银行业数据中心能效提升的重要方向,银行业可通过建设统一云平台实现资源供给效率的进一步提升。一是通过硬件网络和虚拟网络解耦,在合规前提下融合安全域,提升资源池流通水平;二是支撑云原生容器化等技术,提升PaaS和CaaS资源管理和调度灵活性,实现IaaS、CaaS、PaaS一体化;三是提供弹性裸金属、在离线混部等高阶能力,实现更细粒度的资源调度;四是屏蔽科创、非科创硬件差异。在此基础上,云平台通过提供大规模、高性能、高稳定性、多租户、多形态的资源服务能力,实现了资源供给能力“从点到面”的大幅提升。兴业银行基于统一的云平台,实现了IaaS、CaaS、PaaS一体化,有机融合金融生态云、集团生产云、总行生产云、集团灾备云、桌面云等云资源,夯实了数字云底座,推进数据中心云化转型升级。
2.结合应用架构的一体式交付,打通交付流程断点
随着数字经济的发展,银行业务需求快速增加,对于交付效率和质量的要求也在不断提高。日均百次、年均万次的交付频次已不能满足现有信息系统高速迭代的需求,这就要求交付方式从资源视角转向应用视角,使云管能力向上延展。但技术栈分散,IaaS、CaaS、PaaS缺乏统一资源视图,基于脚本的自动化运维模式难以适应云原生CaaS和PaaS实例交付等情况成为一体化交付的瓶颈,尤其是承载业务运行的应用交付和基础设施(IaaS+CaaS+PaaS)资源的交付在自动化交付链条中存在断点,成为影响一体化交付的关键因素。
兴业银行数据中心在对交付流程进行深入分析后,形成了一体化交付能力提升建设方案,显著提升了交付效率。
一是建设统一的IaaS、CaaS、PaaS一体化云平台,实现实例化、服务化、高效弹性的资源供给,通过云平台的建设实现硬件通用化和软硬件解耦,解决技术栈分散的难题,完成“IaaS+CaaS+PaaS”的一体化交付。
二是以云平台为底座,建设一体化应用运维平台(如图1所示),将应用逻辑架构、应用部署架构定义到交付流程中。同时,在交付流程中结合部署环境规划、应用蓝图规划和上线流程,实现一键式、可视化、自动化的一体式交付,支撑业务应用快速变更迭代。
图1 兴业银行一体化应用运维平台
3.单元化部署助力从两地三中心走向多地多中心
数据中心容灾能力建设是保障银行业务持续运行的必要条件。容灾架构演进是一个不断发展和完善的过程,兴业银行的容灾架构从最初的数据大集中开始,经历了主备中心、两地三中心、多地多中心多活等多个阶段。云计算技术的兴起为兴业银行数据中心的容灾能力建设带来了新的机遇和挑战。
传统的两地三中心容灾架构在某一地或某个中心出现故障时,通过便捷的切换措施,业务仍然可以正常运行。两地三中心的架构基础在于数据库的多副本高可用、存储实时复制和网络高速通信。兴业银行在传统技术上扩展两地三中心的容灾架构,基于两地四中心的容灾部署实现了关键信息系统容灾切换恢复点目标(RPO)的0分钟、恢复时间目标(RTO)小于5分钟。
在云计算技术飞速发展的背景下,为了进一步提升容灾架构的高可靠性,单元化部署成为银行业数据中心提升容灾能力的一种较主流的方案。该方案的核心思想是基于某个分片规则划分单元,使得在一个部署单元内部,内聚部署其所需要的主要业务服务,可大幅减少不必要的跨单元、跨园区访问。单元化部署架构的数据服务借助分布式数据库分库分表能力,可提升架构的可扩展性。单元化容灾架构可在区域性故障场景有效控制故障爆炸半径,在降低切换粒度的同时提升切换的灵活性。兴业银行重要信息系统的容灾架构正逐渐从两地四中心向单元化架构过渡,以避免两地数据中心距离较远带来的网络延时损耗,提升业务应用对数据中心所处地理位置的适应能力,从而增强重要信息系统的容灾能力。
二、构建数智化运维体系
1.建立“发现—定位—恢复”应急体系,实现快速、精准、高效应急
经过十多年的探索,兴业银行数据中心通过应急体系建设沉淀了一系列流程和工具,如基于分钟级告警能力的可用性监控系统、PB级的运维大数据分析平台、以AI场景为中心的智能运维平台等,有效支撑了10分钟以内快速故障定位。兴业银行坚持高标准、高质量的要求,针对支撑本行重要业务的信息系统制定了“发现—定位—恢复”快速、精准、高效的应急管理目标。为实现此目标,兴业银行数据中心对安全生产应急体系中存在的痛点进行了深入分析,构建了高效的应急体系(如图2所示)。
图2 兴业银行应急体系
一是建立覆盖全栈监控技术的观测中心,实现对各专业监控数据的高效整合,在统一页面上呈现多种运行状态数据,实时展示告警数据和性能数据,并定制特定场景的业务大屏,打造直观高效的集团统一观测中心;构建基于业务视角的全链路监控能力,收敛上游监控告警信息和触发下游应急响应,实现监控告警信息的关联。
二是以混沌工程成熟度模型(CEMM)为依据,结合应用部署架构,搭建稳定性保障平台,探测应急体系中的薄弱环节,建设运维保障能力基线。
三是建设应急中心,对异常事件、应急预案和故障进行管理,形成故障跟踪与复盘、自动生成处置方案等能力。
四是提升运维自动化能力,打造原子化脚本库,同时将专家能力沉淀为平台化操作能力,实现应急动作标准化;逐步减少运维人工操作,实现运维操作可重复、可管控、可审计;提高运维变更执行效率,实现健康检查、软件下发、变更执行、应急处置的自动化,助力企业级数字化交付。
五是打通观测中心、应急中心、自动化运维平台、ITSM、CMDB等关联系统的流程和数据,实现整个应急流程的自动化。
随着数字化转型的深入和云平台建设的推进,兴业银行的应急体系正逐步优化和完善,力求在“十四五”期间落地实现快速、精准、高效的应急目标。
2.数据为底,智能为用
传统运维管理主要以配置管理数据库(CMDB)为核心,构建“监、管、控”三位一体的经典模式。此方法强调专业分工协作与流程管控相结合,高度依赖运维技术人员的经验,无法有效推动运维的智能化和自动化。只有经过成熟的数据治理,建立运维数据体系,深度挖掘运维数据价值,才能为运维决策提供数据基础和依赖。
面向这一领域,兴业银行数据中心参与了团体标准《金融机构信息系统运维数据治理能力成熟度评估规范》的编写。该团体标准制定了运维数据治理框架,在定义运维数据治理能力成熟度等级的同时,为运维数据治理提供了方法论指导。此外,兴业银行还建设了运维大数据平台,并将其作为智能运维的数据底座,依托其统一的存、管、析、用等能力,构建数据汇聚、存储、计算和分析等功能,并将运维数据划分为配置数据、指标数据、链路数据、日志数据、监控数据和告警数据六大类,完成各类数据梳理及制定运维数据标准,围绕数据质量、数据生命周期、数据安全等几个方面建立了运维数据标准化治理体系,确保运维数据的完整、准确、一致、有效,并兼顾了较高的时效性。
数字孪生技术将真实机房和虚拟机房建立数据连接,可实时智能监控机房运行状态,对物理实体的全生命周期进行模拟、验证、预测和控制,达到“无人运维”的良好效果,是将数据直接运用到数据中心运营中的典型应用。这一技术在兴业银行得到成功应用,为数据推动运营打下了坚实的基础。
数据和算法被认为是智能运维的两大关键因素,兴业银行智能运维在白盒化算法中心的支撑下,面向生产、安全、业务条线的智能分析场景,打造场景化AI应用。一是不断提升数据认知能力及运维数据治理能力,使数据的稳定性和可靠性得到持续优化;二是围绕系统稳定性、风险等多个维度,驱动自动化、智能化的运维转型,深度挖掘运维数据的价值,将传统使用命令、人工决策的运维过程转变成“数据+算法”的智能模式,在智能风险预警、异常检测和根因定位等方面实现突破,助力各类业务高效、稳定、顺畅运行;三是积极探索数字数据中心、智能运营分析等智能运维场景,构建兴业银行智能运维基础底座,推动运维自动化、服务化、智能化水平迈上新的台阶。
近年来,兴业银行紧跟“数字中国”发展战略,坚定奉行“科技兴行”建设理念,深入研究云计算、人工智能、大数据等新兴技术,持续优化先进高效的算力供给体系,探索运维管理的全流程数字化和智能化路径,切实提高了运营效率和运维质量,创新了交付模式。下一步,兴业银行将持续高标准建设稳定运行的数据中心,朝着“一流银行、百年兴业”的目标稳步迈进。
|