|
平台工程落地实践:构筑数据中心采控一体运维服务底座
来源:《中国金融电脑》 作者: 日期:2026/1/7
作者:中国工商银行数据中心运维支持部 吴敏 杨偲嘉 冼郑智 林佳蕾 张志鹏
2023年,Gartner首次将“平台工程”列入年度十大战略技术趋势。平台工程作为一套用来构建、运营支持软件交付与生命周期管理的自助式内部开发者平台的机制和架构,不仅具备自助式、自服务能力,能够最小化内部IT人员的认知负荷,提升DevOps/BizDevOps质量、效率与效能,还可有效解决传统DevOps在大型团队中因工具链碎片化导致的管理成本高、体验割裂等问题,并因此被多项政策文件提及和倡导。面对当前全球性的技术变革,工商银行数据中心引入平台工程设计理念,通过统一规划、统一标准、统一建设,构筑采控一体运维服务底座,为数据中心基于“三大管理平台(生产管理、资产管理、安全管理)+X专业应用+三大底座”的生产运营管理架构提供了高效、可靠的服务支撑。
一、采控一体运维服务底座核心场景
以“采控双擎”为架构核心,工商银行数据中心的采控一体运维服务底座可高效服务于大型金融集团。其中,“采”即数据采集,其通过对大规模性能容量数据流和监控场景指标流/日志流进行多维采集,是平台工程可观测性的数据基石;“控”即控制,其通过承载脚本命令调度与自动化流水线任务的策略化控制,是平台工程的自助化、自动化执行核心。采控一体运维服务底座将“采”的洞察力与“控”的执行力深度融合,在赋能金融领域各类运维场景的同时,也诠释了平台工程“整合能力、提升效率、降低复杂度”的核心价值。采控一体运维服务底座框架如图1所示。
图1 采控一体运维服务底座框架
1.数据采集场景
通过对IT资源进行逐层分类管理,采控一体运维服务底座按照对象领域(如操作系统、数据库、中间件、存储工具等)、对象类型(如操作系统下的AIX、SLES/LiNUX、NeoKylin/Kylin等)、采集对象(如SLES/LiNUX的内存、CPU等),集成不同类型的采集脚本或采集配置文件,有效突破传统异构环境兼容难题,支持通过统一Agent自动采集各类运维基础数据。目前,工商银行数据中心统一Agent已部署全集团服务器超18万台,包括数据中心以及境内外分支机构的平台服务器。
(1)指标采集
在指标采集方面,工商银行数据中心在平台服务器上均部署了统一Agent和策略文件,并在策略文件中规定了统一Agent各类任务需要执行的脚本及各项属性。在执行过程中,若策略文件中的采集对象与本地采集对象相匹配,则统一Agent执行策略文件中的相应脚本,以满足周期性、高频的采集需求(采集频率最高可达秒级),且上述采集脚本可随需求场景不断扩充,逐步形成采集脚本库。此外,采控一体运维服务底座还支持对接部分由其他系统采集上送的指标,如云平台底座CPU、内存数据等。基于上述能力,统一Agent构建了面向指标数据的完整采集链路,并已覆盖系统、中间件和数据库等160余项性能指标和120余项监控指标。性能容量场景和指标监控场景示意如图2所示。
图2 性能容量场景和指标监控场景示意
在性能容量场景中,统一Agent采集的性能指标数据按既定格式传输,最终写入时序数据库赋能各类使用场景。该功能不仅为跨专业性能容量场景建设提供了可扩展、高可控的技术支撑,也大幅度提升了上层分析评估能力,在性能容量指标查询、应用健康检查、各类性能容量专题统计报表、低效资源回收治理等场景中均发挥了重要作用。
在指标监控场景中,基于采集的指标数据和通用化规则告警计算引擎,监控管理员通过配置告警公式规则或领域语言规则并启用相应策略,即可实现平台监控中的指标监控。同时,触发产生的告警数据还将基于统一标准进行上送,并由指标监控平台结合实际需求对告警数据进行统一处理和集中展示。
(2)日志采集
统一Agent通过集成日志采集插件,支持根据“对象领域—对象类型—采集对象”对采集配置模板进行分类汇总和不断扩充,进而形成采集配置文件模板库。以中间件(MDW)中的WAS为例,其采集对象包括Systemout、Systemerr、Nativeout、Nativeerr日志等。在此模式下,监控管理员仅需锁定相应的对象类型,即可加载采集对象并获取相应的采集配置模板,并通过采控一体运维服务底座提供的文件下发接口进行采集配置下发操作,进而快速、准确地自助加载日志采集文件。
在日志监控场景中,统一Agent采集并上送的日志为平台监控中的日志监控提供了数据源,之后再将其与日志监控告警策略进行对比,即可判断日志是否满足告警条件:若满足,则触发一个或多个告警动作。
2.流水线自动化场景
运维人员结合采控一体运维服务底座的低代码属性和运维目标,可将运维经验固化为标准化、可复用的专业运维能力及自动化、可配置的在线运维操作,从而在避免重复建设的同时,实现各类流水线的自动化可扩展场景。
(1)环境搭建
基于采控一体运维服务底座提供的介质获取接口和任务执行接口,运维人员可通过调用接口实现对相关介质的自动获取和服务器批量部署,从而一键式完成自动化环境搭建,如中间件WAS的补丁批量安装等。在此模式下,采控一体运维服务底座不仅有效缩减了环境搭建时间,同时也显著降低了手工操作风险。
(2)应急切换
采控一体运维服务底座通过提供页面交互式流水线编排功能,可将各专业的应急服务串联起来,使运维人员只需启动流水线执行引擎,即可流水线式完成快速应急。在此基础上,随着流水线任务执行架构的逐年优化,工商银行数据中心的流水线执行引擎并发度由10000提升至16000并具备了水平扩展能力,可高效满足超大规模突发应急的高时效需求;此外,伴随流水线执行效率的持续提升,一键式切换时间也从10分钟缩短至2分钟。
(3)账户纳管
基于采控一体运维服务底座提供的自动化执行接口和消息转发接口,运维人员可通过接口调用实现对服务器信息与用户集中管理系统信息的自动化对比,查询服务器资源信息和账号信息,或重置资源账号口令,从而实现对服务器账户的批量纳管,满足数据中心对庞大体量服务器的一键式自动化纳管需求。
(4)配置自发现
配置管理中心通过调用自动任务执行模块,可批量下发配置自发现任务,并获取操作系统、中间件、数据库等配置信息,满足获取庞大体量服务器上各类配置信息的实时性和准确性要求。
(5)变更流水线
在标准变更场景中,工商银行数据中心秉持“推进变更标准化、降低变更风险”的总体思路,构建了标准化变更自动化系统,并通过可视化流水线编排,将核心运维经验沉淀固化为标准的操作流水线,实现了变更与投产作业的一键式高效执行。此举有效调节变更效率与风险管控的内在张力,达成了二者动态平衡下的协同演进。标准变更场景如图3所示。
图3 标准变更场景示意
在批量变更场景中,依托统一Agent覆盖了全行90%以上的平台服务器,采控一体运维服务底座支持按机构或IP批量执行变更命令,从而充分满足了平台专业线同时对大规模服务器开展相同功能变更的批量操作需求,极大地提高了日常变更的便捷性。
(6)巡检流水线
在健康巡检场景中,采控一体运维服务底座为巡检场景提供了跨多条专业线的可视化编排操作能力,并通过联合事件变更管理规范、固化日常运维检查操作、形成健康巡检流水线,实现了系统自动化定时巡检和即时检查,不仅提升了复杂系统跨专业线的沟通效率,提高了生产应急恢复的时效性和准确性,也有效促进了规范落地,降低了生产风险。
在安全巡检场景中,采控一体运维服务底座为境内分行等提供了安全规范检查、基线检查和健康检查等服务,先后完成安全检查任务1800余个,覆盖超18万台服务器、80余家境内外分支机构、超26万个开放平台对象,共计600余项检查指标,推动合规率提升至98.8%。
二、采控一体运维服务底座技术模块
基于平台工程设计理念,工商银行数据中心将采控一体运维服务底座的服务能力与各类运维场景深度融合,着力打造了统一Agent、自动任务执行模块、服务模块和管理模块等核心组件。
1.统一Agent
统一Agent作为平台工程的业务执行代理,在逻辑上分为即时任务、定时任务和自监控。其中,自监控具备守护主进程和性能超限控制的作用。例如,性能超限控制功能能够防止统一Agent在业务节点上占用过多资源使业务功能受损,从而有效避免运维脚本故障导致的业务问题。在落地层面,统一Agent模块部署在全行平台服务器上(上层连接消息队列和介质服务器),既能够满足性能容量数据的定时上送和监控数据的实时上送,又满足了环境搭建、配置管理、应急切换、账户纳管、变更流水线、巡检流水线等场景的即时请求与即时处理,日均服务各类巡检任务达2万次,平均成功率为98%。
2.自动任务执行模块
自动任务执行模块由流水线执行引擎和脚本执行引擎共同组成。
(1)流水线执行引擎
流水线执行引擎依托脚本开发模块和流水线编排模块,能够对流水线(脚本、脚本组件、服务组件、人工组件和业务组件的串并组合)上的各个组件进行执行顺序控制与执行结果获取。
其中,脚本开发模块可实现对运维脚本的全生命周期管理,覆盖“开发—测试—审批—发布—版本控制”的全流程。利用该模块,脚本开发人员可对脚本或脚本组件(在同一设备上执行的多个有前后项串联关系的脚本组合)进行新建、编辑和测试操作,并对脚本内容进行敏感信息校验,以保证操作执行安全可控。其间,脚本开发管理员负责脚本或脚本组件的审核管理,采控一体运维服务底座管理员进行相应的发版管理,并随版本进行脚本投产和部署管理。此外,在脚本发布后,如有变更需求,采控一体运维服务底座支持在开发环境进行二次开发(重新进入生命周期),并在发布后将脚本纳入脚本库(典型脚本包括监控脚本、性能容量脚本、配置自发现脚本、应急切换脚本、环境搭建脚本、基线检查脚本等)。
流水线编排模块作为平台工程的核心功能组件,专注于流水线的新建、编排、导出及导入操作,并支持以“可视化拖拽+参数化配置”的方式按业务场景进行步骤串并联编排。流水线编排模块凭借直观、零代码的操作界面,可支持各场景用户自主设计、高效配置、便捷修改、精准执行自动化流水线,从而快速解决其自动化需求,加速推动平台工程自助服务理念在流水线自动化领域落地。此外,用户在执行已编排的业务流水线时,既可通过页面查询流水线整体执行状态,也可实时进行人工干预(如中断或跳过特定步骤),并将发布后的流水线纳入流水线库(典型流水线包括环境搭建流水线、应急切换流水线、变更流水线、巡检流水线等)。
(2)脚本执行引擎
脚本执行引擎是平台工程向用户提供自助化、标准化操作能力的重要入口,其通过为运维人员提供集成式可视化批量操作界面,可使用户对服务器的日常运维管理更加便捷,包括进行服务器信息查看和服务器分组管理,支持脚本的即时运行、定时运行或重复执行,以及提供文件获取、文件下发和介质管理等运维功能。
3.服务模块
服务模块是平台工程标准化、集成化治理的核心枢纽,主要以服务总线的方式为采控一体运维服务底座提供模块治理、服务注册、签名认证、服务调度、服务计量分析等功能。该模块通过构建标准化的接入范式,可有效消解“内—内”模块与“内—外”系统间的接口技术异构性,从而显著降低交互复杂度;同时,通过强化服务转发的可靠性保障与安全控管,为采控一体运维服务底座实现分布式弹性部署与全局集中化治理奠定了可靠基础。
4.管理模块
管理模块主要负责实现平台工程的可观测性与安全保障能力。其中,统一Agent管理的核心功能是对安装、升级、启动、重启、停止等生命周期进行批量化管理,并支持按IP或按机构执行即时升级任务和定时升级任务,降低统一Agent管理负荷。集群状态管理的核心功能是基于独立的总分行架构,构建统一的集群状态管理模块,提供模块监控、分析诊断、运维操作等智能化运维增值服务。其间,各模块可通过API接口主动上传自监控状态,由集群状态管理模块处理状态数据,完成集群状态监测,并实现集群状态可观测。此外,若监控数据满足告警条件,还能够主动上送告警至集中监控。权限管理的核心功能是提供集中统一的权限管理功能(包括角色管理、用户管理、机构管理等),明确用户在各场景下操作采控一体运维服务底座各模块的权限,提升操作安全性。任务管理的核心功能可分为脚本任务管理和流水线任务管理,通过提供安全控制机制以避免人为误操作风险,并提供任务历史追溯和审计能力,保障可信赖的自助化和自动化执行。
三、总结与展望
1.建设成效
工商银行数据中心将自主研发的统一Agent作为业务执行代理,融合自动任务执行模块、服务模块、管理模块等功能组件,系统性整合传统分散的工具链和能力,创新打造采控一体运维服务底座,将全行超十万级境内外平台服务器节点纳入一体化管控,有效驱动生态化协同运营,重塑运维生产力。作为平台工程落地的实践探索,采控一体运维服务底座着重实现了四项功能:
(1)自动化
采控一体运维服务底座通过对各类采集场景和流水线自动化场景进行自动处理(如环境搭建、应急切换、配置自发现等大规模烦琐操作),有效减少人为误操作,确保了流水线的安全、可靠、可复用。
(2)自助服务
基于采控一体运维服务底座,用户可通过自动任务执行模块或服务模块自行获取所需资源和服务,从而显著提升运维效率和自主性。
(3)可观测性
采控一体运维服务底座借助各类管理模块,可实时观测和监控模块的运行状况及性能,进而辅助优化系统性能和资源利用效率。
(4)成本优化
采控一体运维服务底座通过将全行超十万级境内外平台服务器节点进行统一纳管,不仅避免了运维工具的重复建设,同时也为各场景运维人员提供了统一的调用接口和更好的使用体验,进一步降低了应用门槛。
2.后续展望
未来,工商银行数据中心将持续建设采控一体运维服务底座,不断深化平台工程落地实践,打造更加高效、稳定、可持续的企业级运维服务支撑,为数字时代的金融科技新质生产力发展贡献更大力量。
(1)深化技术演进,全面提升平台工程服务能力的“快、准、全、稳、易”
快:追求卓越执行效率与极致资源占用优化,在现有统一Agent内存占用上限(1.5G)的基础上,进一步压降其于宿主服务器的资源消耗峰值。
准:保障任务执行的高度可靠性,持续精进任务成功率,在各类巡检任务日均成功率已达98%的基础上,力求实现更进一步的突破。
全:提升统一Agent适配广度,在覆盖全集团90%以上平台服务器的基础上持续扩展,确保对各类对象版本的全面兼容;同时,提升任务类型丰富度(现已集成命令执行、文件传输、流水线调度、指标数据采集、日志采集等多元化任务类型),持续赋能多样化的运维场景。
稳:确保系统服务质量的卓越稳定性,坚定不移地提供7×24小时不间断的高可用服务保障。
易:贯彻用户友好理念,着力简化操作流程并优化交互体验,持续确保服务获取途径严格合规、高效便捷。
(2)引领行业趋势,全面夯实自主可控平台工程运维底座
一是深化信创转型,加速构建并持续加固自主可控的平台工程运维核心基础能力;二是加强AI赋能,深度整合人工智能技术,落地智能运维创新场景;三是强化创新驱动,实现从底层数据采集、处理分析到上层智能决策支持的全链路闭环能力跃升,驱动运维模式向自动化、智能化高阶演进。
文章转载自《中国金融电脑》2025年第12期
|