设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2022年8月
兴业银行科技运维部总经理吴上荣:兴业银行智能运维探索与实践

兴业银行科技运维部总经理 吴上荣

  近年来,混合架构、互联网应用与传统应用的双模态发展,以及云计算、大数据、5G、移动互联等技术的应用,在为银行发展带来前所未有的助力的同时,也给传统IT运维带来了严峻挑战。在银行数字化转型进一步提速的过程中,推动数据中心智能化运维正在成为保障金融业务稳定持续运行的重要一环。人民银行发布的《金融科技发展规划(2022—2025年)》提出,要建立健全金融数据中心智能化运维机制,加强多场景协同联动、多节点一体管控,提升节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。智能运维的应用正在逐渐成为银行IT运维的新方向,兴业银行也已经开始了智能运维的实践探索。

  一、数字运维添新能,革故鼎新提效能

  1.从“浅层”到“深度”,运维模式在转型中探索

  近年来,银行信息化程度逐步提高,数据体量持续增长,业务环境愈发复杂,行业监管要求更是日趋严格。在商业银行普遍采取的“两地多中心”或多生产中心的布局下,数据中心已转变为多机房并行协同的营运模式,信息系统部署在不同生产中心。信息系统架构复杂、海量节点、多组件、跨平台,且自动化覆盖不足,靠人工已不能满足运维需求。尤其是随着虚拟化、云计算技术的发展和应用,网络、存储和计算等资源的边界日趋融合,IT基础资源层层整合,暴露出的运维问题往往越来越多,运维场景割裂、事件监控有效性不足、人工决策效率低、突发性事件处理能力弱……这是大多数银行数据中心都面临的运维能力不足现状。

  在银行数字化转型的新形势下,IT系统环境发生了巨大变化,这要求IT运维更灵活、更敏捷、更自动和更智能,因此,如何利用金融科技赋能IT服务,挖掘运维数据潜在价值,对外支撑业务、对内支撑运营,实现从标准化到数字化的转型、从自动化到智能化的转型、从被动运维到主动运维的转型,成为迫在眉睫的事情。这些变化也需要数据中心的所有运营者能够拨开迷雾、深刻思考,聚焦运维最核心的问题:在多云环境适配、海量数据异构的条件下,如何实现运维效能的提升?

  2.从“繁杂”到“简约”,IT运维在转型中稳固

  智能运维之所以被如此青睐和寄予巨大的期许,这其实是一种运维从业者对业务运维去繁求简的愿景,其通达之路也是一条“组织+人员+技术”层面的革新蜕变之路。首先,银行开始实施数字化转型,需要组建和调整相应的战略层级和部门,加强数字化人才队伍建设,使数字化部门的价值在驱动银行数字化转型的过程中得到提升,并最终使IT的数字能力转化成银行新的生产力和竞争力。其次,追本溯源,我们发现,正因为IT运维的繁杂性是由社会及企业数字化演进而来,那么“心病还须心药医”,运维的问题自然可以从数字化发展过程中寻求答案,只有运用智能化技术做到真正的去繁得简,方能迎难克坚、达成目标。

 二、大数据厚积薄发,AI智能成果显现

  聚焦数据中心IT运维,面对数字化发展潮流,兴业银行需要快速提升数据治理和全面分析的能力,让被动运维逐渐转变为主动运营,而智能运维的打造,则有效增强了兴业银行对运维数据的认知能力、处理能力与管控能力,这也是银行业数字化转型成功的关键标志。

  智能运维要成功落地,必须具备“数据+技术”两大驱动引擎。这里的“数据”指的是可观测性数据和人机交互数据,“技术”可包含大数据技术、算法分析技术、机器学习技术等。为此,兴业银行数据中心自主研发形成以运维大数据平台为数据中台底座、以AI场景为中心的智能运维平台(如图1所示)。

图1 兴业银行智能运维平台

  1.全面开展数据治理,建立智能运维新基础

  兴业银行数据中心基于运维大数据平台丰富的数据治理实践,通过统一的存、管、析、用等能力,从资源类、交易类、作业类、流程类、性能类、告警类、日志类、知识类八个维度梳理并制定了相关的IT运维数据规范,构建数据资源地图,建立运维数据规范化标准化治理体系,构建真正的数据运营能力,并持续提升数据服务质量,为数据的智能化运用奠定基础。

  2.全面推进运维实践,融合平台架构新特性

  兴业银行智能运维团队从平台化、工具化、能力化、场景化出发,借鉴和学习行业技术经验,结合自有业务特点和需求,总结了一条行之有效的实践路线。

  一是白盒化算法平台架构:基于白盒化机器学习平台,采用开放式组件开发框架与计算引擎,支持Spark、Pyspark、Tensorflow、Pytorch等多种主流计算引擎和开发框架;充分运用数据治理成果,回馈平台智能化能力,实现运维智能化,简化从算法场景开发到落地的过程,让智能运维技术更加高效、便捷、标准。

  二是调配式智能分析场景:通过图形化交互界面,基于共享化组件和装配智能分析流程(Pipeline),快速构建面向生产、安全、业务条线的分析场景,打造预测、发现、定位、恢复全链条的场景化AI应用,实现智能运维自身能力的循环式提升,及时恢复故障,减少业务损失。

  3.全面衔接业务画像,支撑场景实践新洞察

  场景是数字化的精髓所在,因此,只有贴近业务才能形成具有兴业银行基因的运维服务。兴业银行智能运维平台基于多部门的资源、指标、日志、活动等数据,通过机器学习的方式,训练出相应的计算模型,进而优先构建了业务系统画像、故障定位、指标异常检测、指标预测等智能分析场景,为后续深入研究及拓展智能运维技术蓝海奠定坚实的基础。

  (1)业务系统画像:一图知全貌

  业务系统画像以业务系统为“干”,以配置管理库(CMDB)资源关系数据为“枝”,以软硬件资源为“叶”,以智能分析数据为“果”,从全局角度,以可视化、标签化的方式展示应用系统的全貌特征,包括系统画像标签、拓扑关系、关联关系等全景视图,从而为IT人员提供丰富的系统智能评价与分析信息,使得IT人员能够精细、全面、直观、高效地了解系统真实运行情况。

  目前,业务系统画像建设已经覆盖数据中心重要及关键系统,后续还将深入和扩展到200多个系统,节点数量拓展到1.5万以上,助力兴业银行数字化转型建设。

  (2)故障定位:5分钟高效准确定位

  故障的根因定位是指当某业务系统发生故障时,从各种不同的数据维度进行汇聚分析,覆盖所涉及业务系统包含的系统软硬件状态、日志、调用链、性能指标等基础信息,对这些信息进行综合分析,并提供可视化展示,同时利用人工智能算法,如机器学习分类算法与多维信息关联关系挖掘等技术手段,对该系统的故障进行分析,得到产生故障的根本原因(如图2所示)。

图2 故障定位诊断逻辑

  目前,故障定位效果已达到5分钟内定位、准确率80%以上,有效支撑了数据中心10分钟以内准确定位故障的管理目标。

  (3)指标分析:洞察先机,防患未然

  传统指标监控管理体系往往采用人工经验的固定阈值方式,通过事后预警来达到运维目标,使得业务系统故障持续时间相对较长。因此,基于上述场景诉求,兴业银行智能运维平台采用智能化指标异常检测和趋势预测场景,通过动态基线算法、指标预测算法,实现指标监控智能化管理及事前预测监控,提前预知并处理故障。目前,指标预测与异常检测场景已覆盖183类指标、每天18亿条数据,深入挖掘并提前预判异常情况,实现故障分钟级发现、10分钟定位的管理目标。

  三、借势而为攀高峰,中流击水兴飞跃

  2022年是后疫情时代和银行数字化转型加速期,各大银行争相投入到关于智能运维的研究实践浪潮中,智能运维正顺应技术平台化、场景落地加速化趋势发展,最终转化成银行数字化转型后的核心竞争能力。

  兴业银行在过去的数字化建设中,勇于打破固有的思维和发展模式,着眼于更长远的科技变革,拥抱更广阔、可持续的发展,持续深化智能运维技术底座平台,建立了PB级大数据中台,基于智能运维提升故障快速定位能力,持续提升故障定位的准确率;依靠智能分析能力,挖掘运维隐患,基于迫切痛点拓展故障自愈场景等,通过一系列智能运维建设举措,推动数字化运维转型升级。

  数字化业务背后隐藏的新的信息科技蓝海已经显现,而兴业银行也必将不负新时代,扬帆再远航。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2022年第8期目录
工商银行数据中心总经理刘方洲:工商银行..
农业银行数据中心总经理佟梅:智能化赋能..
中国银行信息科技运营中心总经理刘鸿乾:..
兴业银行科技运维部总经理吴上荣:兴业银..
中国银联信息总中心总经理施跃跃:迈向数..
中国工商银行业务研发中心专家任长清:商..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多