好一朵美丽的金融云 ——光大银行全栈云平台建设实践
来源:中国光大银行科技创新实验室 作者:帅金荣 冯帆 日期:2024/5/30
光大银行全栈云以银行业务高质量发展的需求为核心,为全行提供统一的算力供给和编排,通过IaaS和PaaS的技术赋能,为银行业务发展提供全资源、全服务,满足金融全业务场景需求。
光大银行全栈云平台建设至今已承载信用卡综合业务管理系统等近300个业务系统安全运行。通过稳定的技术支撑、充足的资源供给、丰富的服务输出、高效的运营策略、安全的防护措施和专业人才的培养,云上应用的整体可用性得到提高,业务价值得以提升,控风险、降成本、提效能、增质量的价值开始显现。
一、稳定的技术支撑
全栈云平台采用“双栈并举、一栈多芯”架构建设,防止单一技术对云平台发展方向形成约束,进一步规避云平台的全局性和系统性风险,实现了双栈能力对齐、多云资源统一管理、应用跨栈部署、多CPU架构兼容,作为稳定、可靠的统一底座赋能业务。
双栈对齐:首先,双栈的IaaS具备相同的计算、存储、网络和安全服务能力。其次,双栈的PaaS具备相同的数据库、中间件、缓存和消息队列等服务。同时,双栈针对kubernetes集群、容器镜像、基础镜像和操作系统等版本保持一致。最后,双栈的计算、存储、网络、安全和容器的性能基本持平。
多云管理:全栈云通过自研云管平台提供统一门户,实现云资源、云服务的集中交付与管理。业务无需感知技术栈差异,云管平台底层完成双栈所有API接口的对接,实现多租户管理,屏蔽网络、存储等复杂操作,按业务场景提供多种服务模版。全栈云的开发、测试、验证和投产环境实现了一致化管理。
跨栈部署:基于CI/CD实现应用代码的快速部署和敏捷迭代;基于应用系统的不同部署架构,抽象多活、主备、单体等多种部署模型;统一双栈底层网络模型,使得应用系统的网络访问方式一致;统一安全管控能力,对于资源按工作负载进行防护;支持跨栈部署应用。
多芯兼容:双栈分别基于各自云平台实现多种芯片的纳管;基础镜像和操作系统针对不同芯片实现统一版本;安全能力实现对不同芯片的兼容;数据库、中间件基础技术软件对不同芯片兼容;统一agent等运维工具实现对不同芯片的兼容。
二、充足的资源供给
在全行科技统筹建设“一朵云”的战略规划下,光大银行制定了《中国光大银行全栈云建设及应用上云工作规划》,2023年全栈云算力已达到约4000台服务器的规模,运行在云上的应用包括信用卡综合业务管理系统在内的近300套系统,云主机、容器POD总数累计近10万个。
三、丰富的服务输出
光大银行结合数字化转型战略,分析现有云计算平台的痛点与不足,综合考虑业务发展需求、技术发展趋势与监管要求,以终为始,增强IaaS底层技术,建设PaaS服务能力。增强IaaS能力使用全栈云计算技术架构,补充分布式存储、对象存储、AI算力、软件定义网络、统一制品库等核心技术栈;同时基于原生Kubernetes集群架构,扩大平台纳管能力和敏捷弹性能力。PaaS服务能力建设重点聚焦于基础软件PaaS化,包括数据库服务、缓存服务、消息服务、智能DNS服务等,提供丰富云服务,不忘云计算建设初心,竭力追求建成“覆盖广泛需求、资源云化、上下游一体调度支配的云计算技术中台”。重点服务介绍如下:
AI算力服务:通过云平台实现GPU容器集群的快速交付,实现全行AI业务的快速迭代与应用。
容器集群服务:一站式交付Kubernetes容器集群,与行内自建容器管理平台CPAAS实现联动,为应用上云提供平台保障。
数据库服务:集成行内自主研发的关系型数据库EverDB、缓存数据库Redis,打造了数据库PaaS服务。通过打通算力、存储、IP、域名等资源申请流程和数据库部署流程,实现数据库服务敏捷交付能力,交付时间从一周缩至分钟级。
中间件服务:实现行内分布式消息平台上云与PaaS化交付,承载行内重要系统业务数据,在提高服务交付效率的同时,增强了服务的业务承载能力和安全运营能力。
智能DNS服务:通过云管平台即时绑定云资源与DNS解析,实现用户云上各类资源和服务的便携访问。
四、高效的运营策略
随着分布式架构转型、信创改造、系统全面上云等工作的开展,业务系统复杂度飙升、服务器等设备数量快速增长,对我行安全运营和成本管理工作造成挑战。光大银行探索基于数据分析与资源计量两大能力的科技运营系统建设框架,各技术领域相互配合、分层落实,在保障系统稳定运行的前提下,实现资源的流转与灵活调配,提升了资源使用效益。在数据分析上,打通底层数据共享、简化运营系统建设复杂度,搭建运营数据中台,提供数据平台和数据服务,实现了各类数据的“采、存、算、管、用”全生命周期管理,方便各类运营系统的快速构建,提升了系统安全运营能力。在资源计量上,以实时计量、成本透视作为资源分配管理原则,以云管理平台为抓手,建立计量计费模型、精细化资源管理、夯实云计算平台底座。
1.科技运营数据挖掘,增强系统运行韧性
建设运营数据和运营工具中台:通过对运维数据、交易数据开展智能分析,推进运维领域的数字化、智能化、服务化运营,实现运维效率提升,夯实银行生产系统的安全运营基础。
构建科技运营数据资产管理体系:积极推进运维数据治理,完成多项运维数据标准模型梳理,建立科技运营指标体系,利用数据平台的快速数据组织能力、视图系统的数据可视化能力支撑全行多项重保任务。
探索大模型的运维应用:基于NLP、AIGC、知识图谱、智能Agent、行内分布式消息平台等技术,打造数字化运维助手,实现运维知识问答、运维数据检索和业务影响分析等场景交互式延伸,为事件分析、变更评审等场景做技术积累。
2.应用资源计量分析,优化科技投入效能
完善IT固定资产管理体系:以理清资产账、保障资产安全为原则,健全固定资产管理体系,不断推进资产管理流程优化、资产数据治理,实现与财务系统、配置管理系统联动,保证财务数据、配置数据、资产数据准确一致,实现资产报表管理、大屏展示、成本计量、资源规划等数字化功能,为资产采购提供决策新视角。
优化应用云资源配置:在技术平台建设的基础上组织云资源配置优化工作,制定全栈云资源优化方案并落地实施。一方面组织与几十个应用系统项目组沟通云资源优化计划,推动提升云资源使用率提升,全年累计节约设备采购金额千万余元;另一方面通过资源超分、服务器利旧等手段扩充了容量,满足应用上云需求,全年共计节约设备采购成本近千万元。
五、安全的防护措施
为进一步降低应用上云迁移难度和运维复杂度,全栈云增加了“基础网络+微隔离”的应用上云方案,以简化应用上云网络解决方案,同时实现以应用为粒度的安全隔离。
全栈云微隔离系统面向“基础网络+微隔离”应用上云安全隔离需求,提供容器、虚拟机和裸金属类型工作负载标签化管理、访问连接可视化分析、流量精细化访问控制、自适应策略计算等网络安全隔离功能。
微隔离的防护模式包括:
建设模式:缺省模式,无防护规则,网络流量全部放行,实时监测并记录后台日志。
审计模式:防护规则生效模式,进行实时安全审计,未命中防护规则的网络流量依然放行,同时会触发安全告警,并且将告警信息发送至安全态势感知平台。
防护模式:防护规则生效模式,未命中防护规则的网络流量直接拦截阻断,同时会触发安全告警,并且将告警信息发送至安全态势感知平台。
微隔离工具的防护策略分为全局策略、分区策略、应用间策略、跨域策略。
全局策略:对全栈云内所有纳入到微隔离工具管理范围的应用系统生效
分区策略:对某个网络分区内的应用系统生效
应用间策略:对有网络访问关系开通需求的应用系统生效
跨域策略:跨域访问有跨域防火墙和微隔离工具共同进行访问控制,微隔离工具通过全局入向和出向策略进行访问控制加强。
六、专业的人才体系
在人才方面,扩充网络、云平台、安全、核心技术、核心应用等关键技术岗位自有科技人员数量及占比,优化岗位结构,减少核心环节对外包人员的依赖。同时,通过业技交流、轮岗机制不断培养科技与业务复合型人才,充分释放自主创新能力。
百舸争流,奋楫者先;千帆竞发,勇进者胜。2024年,光大银行在保障安全运营的同时,将坚持需求牵引、应用导向,持续加强全栈云平台建设,健全云运营体系、增强云服务能力,夯实数字基础底座,助力银行高质量发展,扎实做好光大银行数字金融大文章。
|