设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 科技资讯 > 工行金融科技研究院
工行金融科技研究院
中国工商银行金融科技研究院云计算实验室:工商银行智能投产验证平台建设实践与应用探索
来源:  作者:  日期:2023/6/8

中国工商银行金融科技研究院云计算实验室

  摘 要:数字化转型背景下,工商银行借鉴互联网金融行业先进经验,打造并发布了智能投产验证平台,实现应用系统投产验证的全流程自动化和智能化管控,保障投产变更顺利进行。本文结合自动化、智能化、常态化等目标要求,详细阐述了工商银行智能投产验证平台的建设规划与功能设计,希望能为金融同业开展类似实践提供有益参考与研究思路。

  关键词:投产变更;智能运维;自动化巡检

  数字经济时代,商业银行的业务量持续增长,业务领域不断扩张,如何保障金融服务和产品的可靠性、稳定性成为业界面临的共性难题。与此同时,随着应用部署节点的日益增多以及敏捷开发模式的逐步盛行,银行系统的投产变更操作也变得愈发繁杂,运维人员工作量显著增加,系统投产及变更流程急需向自动化、智能化转型,以进一步降低相应的风险和成本。顺应上述趋势,工商银行借鉴互联网金融行业先进经验,打造并发布了智能投产验证平台,实现应用系统投产验证的全流程自动化、智能化管控,保障投产变更顺利进行。本文结合工商银行实践,详细阐述了智能投产验证平台在一体化流程、智能化验证、变更风险防控、常态化巡检服务等方面的建设思路,并前瞻性展望了后续提升方向。

  一、智能投产验证平台建设总体规划

  为适应数字化转型需求,工商银行智能投产验证平台采用Jenkins Pipeline 流程编排引擎和Ansible 服务器管理技术,基于PaaS 云平台Kubernetes、Docker 以及日志中心Elasticserch 的云原生特性,兼容云下、云上所有节点,实现了从部署面到运行面的全方位验证。同时,为进一步满足应用特性验证需求,智能投产验证平台通过与行内各大技术平台对接,覆盖数据查询、日志获取、HTTP 接口调用、文件查询等多类验证场景,可在变更期间为各类应用提供核心功能验证能力。智能投产验证平台架构如图1 所示。

图1 智能投产验证平台架构

  具体而言,智能投产验证平台采用多种智能化验证手段,并具备智能变更管控能力,大幅缩短了应用系统变更时间,降低了变更复杂度:一是引入AIOps 智能运维技术,通过对应用业务运行指标、系统资源监控和云平台事件展开智能趋势分析,实现了变更期间的前后置指标异常智能检测和云平台事件趋势分析等两大智能化验证能力,从而可提前预警潜在风险;二是精准把控投产风险,通过在生产部署的不同阶段分别开展针对性验证,并根据验证结果决定是否阻断变更流程,进而提早暴露问题、降低变更风险,同时还可面向非投产变更窗口期提供常态化巡检功能,为应用系统稳定运行保驾护航。

  二、实现流程一体化,提供验证自动化服务

  在验证点管理方面,智能投产验证平台支持从测试环境到生产环境的全流程管理,测试人员和开发人员可通过团队协作平台进行验证案例管理,并一键同步至测试环境的智能投产验证平台执行验证,确认无误后再由应用自行导出入库,最后通过GIT/ 构建云随版本带出验证点至生产环境(如图2 所示)。在投产阶段, 应用将通过持续交付系统触发智能投产验证平台执行验证点,当执行完成后,再由平台将验证结果即时返回持续交付系统并同步至行内运维平台,同时将验证结果以邮件方式推送,通过云运维移动端进行可视化展示。

图2 验证内容流转过程

  三、基于AIOps 智能运维技术,实现验证智能化提升

  在智能化探索方面,智能投产验证平台借助AI 技术,通过对应用业务运行指标、系统资源监控和云平台事件开展智能分析,具备了智能指标检测和云平台事件趋势分析两大智能化验证能力。

  结合应用运维专家经验,智能投产验证平台选取交易错误码、交易成功率、响应时间、系统成功率、业务成功率等业务黄金指标,叠加云上容器或云下传统服务器的CPU、内存等系统资源黄金指标,实现了对相同节点投产前与投产后、灰度节点与非灰度节点涉及指标的智能化比对,并可由此判断是否存在新引入错误码或差异值较大的异常(如图3 所示),从而第一时间预警投产变更引发的异常情况。

图3 业务黄金指标智能检测流程

  此外,Kubernetes 记录了云平台各应用节点重启、镜像拉取失败、健康检查不通过等未遵循正常调度流程的告警事件信息,但是,由于正常流量冲高和变更期间均可能引起云平台事件波动,因此仅根据某时间段内的告警事件很难直接判断是否存在异常。对此,智能投产验证平台依托事件中心对云平台事件的归集能力,可对每次投产变更前后的告警事件数量进行统计记录,形成事件趋势信息表,并根据告警事件趋势分析出与历次投产变更期间的差异,进而判断当前事件是否存在异常,即是否存在告警事件原因新增或异常突增,从而提前预警潜在风险。

  四、构建智能变更中心,精准把控投产风险

  为实现投产变更的精细化管理,智能投产验证平台支持应用在关键节点变更后嵌入相关验证步骤,并基于验证结果决定是否阻断变更流程,以提早暴露问题、降低投产风险。此外,在整个投产变更窗口中,智能投产验证平台还可实时跟踪所有应用的投产验证情况,同时以看板方式直观展示整体进度和验证详情。在此过程中,变更阻断能力是指在验证内容出现异常时,平台可自动暂停应用系统变更流程,并采用人工介入的方式来分析异常情况,确认是继续执行变更流程还是回退版本。目前,智能投产验证平台主要具备两种验证阻断功能,即常规验证阻断和智能比对辅助验证阻断。

  常规验证阻断由各应用系统自定义验证内容,每一条验证点均可以设置验证失败是否阻断变更流程属性。例如,应用在滚动升级一批Docker 容器之后,将会拼接容器状态、健康检查、容器提供的服务状态等验证点, 并设置验证失败阻断变更流程属性,此时变更流水线会等待智能投产验证平台返回所有验证点的验证结果,验证通过则自动执行下一步变更内容,验证失败则中断变更流水线,待人工介入后判断是否继续执行变更(如图4 所示)。

图4 常规验证阻断流程

  常规验证阻断主要是针对确定性的验证内容,但根据生产运维经验分析,即使应用所有确定性的验证内容均验证通过,也可能在灰度运行业务流量接入时出现不可预知的错误,此时就需要发挥智能比对辅助验证功能的阻断作用。智能投产验证平台会在应用投产全程及投产后的灰度爬坡阶段实时监控应用运行指标,通过对灰度流量占比、灰度交易覆盖率、灰度总体交易成功率离散度、灰度平均响应时间离散度、灰度错误码占比、灰度服务接口耗时等标准化业务指标进行分析,智能判断变更后灰度节点业务运行是否正常,若指标异常,则阻断灰度爬坡进程,实现变更故障及时止损。

  在此基础上,为进一步推进智能变更中心建设,智能投产验证平台建立了投产验证看板,支持在移动端实时查看投产验证进度,同时提供了能够与同期投产进程情况比对的多视角、多维度的可视化能力,支持从研发、应用等不同维度总览当下投产验证进度,以及与上月同期验证进度进行纵向对比,并直观展示验证进度的时长增幅,做到对投产验证进程一目了然。

  五、拓展验证平台生态,打造常态化巡检服务

  在日常运维过程中,应用支持人员需要巡检应用系统的运行状态,智能投产验证平台依托现有技术验证能力,打造了常态化巡检功能,支持应用在线实时触发、定时触发和报警联动触发等三种模式,并可根据巡检场景不同进一步细分出技术平台巡检场景和公共巡检场景。其中,技术平台巡检场景主要包括云平台节点状态巡检、服务状态巡检和批量作业状态巡检等,公共巡检场景则可由应用自定义巡检内容,并在巡检完成后将结果以邮件方式推送至相关开发人员和运维人员(如图5 所示)。

图5 常态化巡检流程

  实践证明,常态化巡检不仅有效改善了巡检效率,减少了人工日常巡检的工作量,也大幅提升了巡检工作的准确性和及时性。经过3 年时间的打磨和推广,智能投产验证平台目前已能够支持文件验证、数据库验证、日志验证、接口验证等61 类验证功能,以及行内500 余个应用系统接入使用,月均验证点数量超过4.5 万条, 验证点自动化率超过98%,月均协助应用发现和规避投产风险超过100 次,成长为工商银行投产变更领域不可或缺的平台之一。


  综上所述,工商银行打造智能投产验证平台全面替代原来的手工验证操作,在显著降低应用投产复杂度的同时,有效保障了应用投产变更的顺利进行。展望未来,工商银行将继续致力于推进平台向智能化升级,着重通过AIOps 智能运维技术提升平台对变更风险的防控能力,力争在变更感知、变更防御、变更回滚等方面实现突破性提升,并通过更全面的技术把控,在投产事前、事中、事后阶段进行精细化管控,使用智能化手段辅助检查变更各环节,助推工商银行向着全面保障应用稳定可靠运行的目标稳步前进。

参考文献:[1] 杨一军. 打造软件质量保证体系,护航新一代智慧银行系统建设[J]. 中国金融电脑.2021(9).

 
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多