设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2022年11月
中国邮政储蓄银行数据中心总经理马德辉:邮储银行智能化运维探索与实践

中国邮政储蓄银行数据中心总经理马德辉

  数字经济背景下,数字化转型已成为促进现代化改革提质增效的新变量。在金融领域,各家金融机构纷纷建立了集约化、集成化的大型数据中心,并致力于构建以大型数据中心为核心、覆盖所有基层网点的IT运维新格局。与此同时,数据集中和资源整合也使得IT系统的技术复杂度和运维风险成倍叠加,银行科技部门如何应对数据大集中后运行规模庞大、管理层级繁多、技术应用复杂等一系列新形势、新挑战,已成为IT运维领域亟待解决的重要课题。

  一、智能运维趋势分析

  随着IT架构和业务的不断变化,IT运维也在不断演进和创新,并愈发注重业务稳定性、运维工作效率、IT架构演进适应性的提升。尤其在数据量急速增长的大背景下,新时期的IT运维不仅要能够完成对海量数据的实时采集,还需要具备智能化分析能力,进而为运维决策提供数据支撑。与此同时,伴随各类云原生应用的日趋成熟,按需分配、灵活调用的发展理念已深入人心,消除“虚实差异”成为当前数据中心实现“云化”转型升级的关键挑战之一。此外,从赋能业务的角度,为进一步提升“业务价值”,IT运维还需要以业务为重点,持续加强IT服务与IT基础设施之间的联系,以更加有效地推动业务发展。

  顺应上述趋势变化,智能化应用的快速发展为实现IT运维转型提供全新抓手,而智能运维作为人工智能在数据中心管理领域的重要应用,也对推动数据中心数字化转型具有极为重要的现实意义,并将为数据中心发展提供新的动能与动力。

  二、智能运维体系规划设计

  近年来,伴随信息技术的持续演进,IT运维逐步从以人力为主、以工具为辅、流程衔接的传统运维模式,升级到以自动化驱动、大数据导向、智能化洞察为主要特征的集约化运维模式。顺应这一趋势,邮储银行借鉴互联网企业的先进微服务化理念,研究引入云计算、大数据、人工智能、分布式数据库等新兴技术,组织开展了银行业智能运维体系研究,并结合当前运维实际现状,制定基于服务化思维的智能运维体系框架,总结提出了智能运维体系建设原则。

  一是工具平台化,即通过对各种工具进行整合集成,将运维基础工具下沉到平台中,并结合系统建设持续推动对各种工具软件的能力融合,避免因运维需求变化而反复建设各种独立的运维工具或者软件系统的情况出现。

  二是平台组件化,即基于组件复用的目的,将平台按照关注点分离的方式拆分成多个独立的组件或模块。在此模式下,每个组件都是一个单独的系统,支持单独维护、升级甚至直接替换,且只要组件提供的功能不发生变化,即不会影响其他组件和软件系统的整体功能。

  三是组件服务化,即将系统内部的一些公共功能模块结合外部调用逻辑拆解形成一个特定服务,再由该服务对外提供统一接口以实现服务调用。在此过程中,运维平台主要负责将功能模块进行服务化封装,最终形成全新的API生态。

  四是运维场景化,即对日常运维工作进行场景化梳理,并利用组件化服务能力,实现面向场景的微应用,从而进一步减少故障分析时间,提高业务连续性,改善业务部门的应用体验。此外,场景化运维也有助于运维人员面向场景进行标准化、专业化操作,降低操作风险。

  五是场景智能化,即在强化大数据处理、存储和分析能力的基础上,结合机器学习技术实现对运维场景的自学习,并支持在一定范围内进行自主分析和决策,基于算法开发推动组织级运维管理。

  三、智能运维平台建设实践

  在智能运维平台建设阶段,邮储银行重点强化了“平台化、服务化、智能化”等技术特点。其中,“平台化”主要指基于“平台+App”的方式开展集约化建设,即在一个统一的平台上承载不同领域的运维工具应用App,以实现集中建设、统一控制。“服务化”主要指在搭载运维工具时着重强调以CMDB为核心、以应用为中心、流程即服务等发展理念,并尽可能提高自动化操作比例,以实现内部处置效率和对外输出质量的双重提升。“智能化”主要指在运维平台中构建大数据分析以及机器学习能力,以支持平台在一定范围内进行自主分析和决策,并通过算法开发促进组织级运维管理。邮储银行智能运维平台功能架构图如图1所示。

图1 平台功能架构图

  从功能角度来看,智能运维平台主要分为运维平台支撑层、应用层与门户层。

  平台支撑层是整个智能运维平台的“底盘+发动机”,负责为整个运维平台提供基础运行环境和公共服务能力。在细分领域,服务层可通过服务中心实现“运维能力服务化”,进而为运维服务能力提供底层支撑;能力层围绕“监、管、控、防”等四大主题,可将基础运维能力封装为服务组件,之后为上层应用提供可复用的运维服务。数据层可基于生产运维数据建立运维大数据模型,推动形成由数据驱动的运维机制。采控层重在搭建可支持分布式、本地/远程、多协议、多云适配的资源采控体系。

  应用层基于平台和服务支撑,主要负责实现各类面向运维场景的应用,面向各个专业的工具,面向各类用户的工作台,面向跨专业协作支撑,实现面向邮储银行运维工作场景的各类应用。

  门户层则是基于平台可视化拓展,负责为运维人员提供信息交互的统一入口。

  四、基于典型场景的应用探索

  实践中,邮储银行结合智能运维体系及智能运维平台建设,在日常运维管理中成功引入了自动化功能,并实现了对CMDB建设、统一监控告警、运维自动化管理、ITSM建设等不同层次的应用整合;在此基础上,通过在告警归并、容量预测、故障自愈、应用健康度管理等典型运维场景中开展智能化探索与实践,有效推动了智能运维体系在数据中心实施落地。

  1.告警归并场景

  当发生告警风暴时,通常可通过提取规则来减少无效告警数量,从而大幅减少系统中断时间,提升运维服务质量。在此基础上,邮储银行选择引入机器学习技术进一步减少原始告警噪声、加快故障修复质效及降低故障处理成本。一是构建告警特征图谱,根据配置信息(如模块/系统间上下游关系、部署关系、网络关系)确定一个大致的指标关联全集,去掉无波动关联的指标。二是开展告警分类学习,即基于机器学习技术对一组已知的告警数据进行训练,生成分类模型并不断优化,最终实现对告警信息的阶段化智能归并。三是引入压缩模式识别算法,通过分析告警的关键字段和描述文本,对相似度较高的告警进行自动聚合,以及梳理配置管理子系统的拓扑关系,只对存在于某个拓扑中的资源告警进行关联。

  2.容量预测场景

  实践中,通过在容量预测场景中采用智能化趋势预测技术,邮储银行基于指标预测算法,实现了容量监控智能化管理及事前预测,支持提前预知容量使用情况。邮储银行通过把系统性能数据统一收集到一个数据仓库中,并且将相关的依赖关系、配置信息、每个服务器需求的数据资源预测数据等集中到大数据平台,基于历史容量数据开展了建模分析,使用智能算法分析出容量占用率的变化规律,并依据该规律对未来的容量预计使用率进行预测分析。容量预测流程如图2所示。

图2 容量预测流程

  3.故障自愈

  面向故障自愈场景,邮储银行实现了告警管理、规则触发服务以及运维自动化工具的有机组合,并选择通过逐步丰富规则库来提升自愈覆盖率。具体而言,一是通过监控工具对IT系统的各项运行指标和状态进行监控,当发现异常时发出告警事件到告警管理中心;二是告警管理中心收到事件后,会进行告警分析处理,找到根源告警并丰富信息,同时提交告警信息到规则触发服务;三是基于规则触发引擎对预先定义好的规则进行计数分析,找到匹配的规则后进行处理,最终调用相应的自动化编排实现故障自动处置;四是故障处理完成后,运维自动化工具反馈处理结果到告警管理中心消除告警,同时监控工具也将侦测到故障恢复,最终完成整个故障处置的自动化闭环。

  4.应用健康度管理

  为了保障应用系统的可靠运行,邮储银行在现有运行监控平台的基础上全新构建了一套应用系统运行健康度体系,旨在从数据治理、标准化建模、评估多维化等方面,以指标化数据体现应用系统综合运行状况。具体而言,应用系统运行健康度体系建设主要可分为四个步骤,包括多数据源接入、指标数据治理、应用系统运行健康度建模和应用系统运行健康度评分(如图3所示)。通过对应用系统建立健康档案得出应用系统运行健康评分,运维人员可基于应用系统健康评分结果对关注的重要系统进行根因定位分析、容量预测并实现特定场景的故障自愈。通过多维指标数据关联度得出根因,评估系统资源容量指标,并针对关联的关键影响因子匹配故障知识库,通过自动化平台实现故障自愈。

图3 应用系统运行健康度体系建设流程

  道阻且长,行则将至。展望未来,邮储银行将进一步加大力量、加快步伐推动运维智能化建设,为全行高质量数字化转型增效赋能。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2022年第11期目录
中国工商银行首席技术官吕仲涛:夯实数字..
中国银行信息科技部总经理兼场景生态与创..
中国民生银行信息科技部总经理毛斌:踔厉..
清华大学五道口金融学院教授张健华:完善..
中国信息通信研究院云计算与大数据研究所..
北京银行首席信息官龚伟华:打造多云生态..
珠海华润银行首席信息官张昕:构建金融基..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多