邮储银行运营数据中心副总经理 巫建刚
作为经济社会的重要组成部分,银行业一直走在数字化转型的前沿,积极寻求业务和技术创新,构筑差异化竞争力。工业和信息化部、中国人民银行等六部门在2023年联合印发《算力基础设施高质量发展行动计划》,明确指出算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。
近年来,金融科技迅猛发展,云计算、大数据、人工智能等技术加速融合,新兴的数智化服务正逐渐成为主流。同时,作为银行业务载体的算力基础设施也在发生深刻的变化,成为发展新质生产力的核心环节。面向数智化未来,邮储银行制定了智慧、平台、体验、生态和数字化的“加速度”(SPEED)科技战略,构筑面向银行应用的新型算、网、存协同的算力基础设施,从数字化、可持续化、智能化三个维度,积极引入新兴技术构筑多元算力基础设施,推进金融科技高质量发展,为数字经济发展提供新动能。
邮储银行“十四五”IT规划明确提出构筑标准化、全云化的算力基础设施,使其成为全行坚实的数字化底座和科技创新的智能加速引擎。
一、算力基础设施构筑坚实的数字化转型底座
1.标准云建设实现多元算力组合
随着分布式、云计算技术的广泛应用,银行应用对算、网、存协同的云化算力基础设施愈发依赖,金融数字化从以应用创新为主转向应用和算力基础设施的协同创新。经过多年的努力,邮储银行依托开源技术栈,采用“开源+自研”的方式构筑了一套完善的分布式技术体系,通过应用路由、微服务化、分布式数据库等技术,配合云化算力基础设施构建了兼顾稳态和敏态的数字化底座。邮储银行运营数据中心超前布局,从资源供给型向应用服务型转变,发布标准云技术规范,实现算、网、存、管高效协同整合(如图1所示),通过全栈自主可控的多元算力池化、云服务标准化、运营管理统一及敏捷化,应对日新月异的数字化变革需求。
图1 邮储银行标准云实现算、网、存、管高效协同整合
标准云采用模块化设计,对组成云平台的每个基础资源池进行标准定义,采用相同的技术架构实现基础资源池的算、网、存协同,提供标准化云服务,增强容错能力,统一对接自研的企业级多云管理平台,降低构建过程中底层组合的复杂度和差异性,提供一致的、可预期的云运营服务能力。标准云建设采用存算分离的云化架构,为匹配行内数据库而应用基于网络复制的多副本保护机制,在金融行业率先大规模实践支持虚拟化、容器化的“NoF+”技术,通过高性能、无损的RoCE网络优化副本间的数据传递和多次写入性能,实现了秒级故障链路切换,全面替换传统FC网络,构筑领先的自主可控存算分离体系。
2.容器化实现跨域资源调度
容器作为算力资源弹性扩展、灵活调度的关键手段,被纳入邮储银行算力基础设施建设体系。邮储银行制定了全行统一的容器云建设标准规范,覆盖容器集群设计、部署和运行的全生命周期。容器标准体系增强规范性,使容器化应用均按照同一套标准进行设计与部署实施,而无需考虑底层算力基础设施的差异性;提升了安全可靠能力,避免了不规范使用;同时通过多集群部署及调度能力,实现了容器应用高可靠和弹性调度,有效整合了多中心算力资源池。
3.云化算力基础设施建设成果
“十四五”以来,邮储银行以标准云为准则,采用创新型基础设施及基础软件,构筑满足行内自主可控建设和数字化转型需求的算力基础设施,目前已完成“两地四中心”建设,构建分布式金融生产云、开发测试云和分行托管云资源池,通过自研多云管理软件实现了多中心标准基础资源池的统一管理和多元异构算力的聚合,有力保障了行内自主可控任务的完成和数字化转型的落地;采用大规模容器集群技术,实现了算力供给体系的云原生化,构建了可持续进化的数智云原生底座,实现多元算力资源池统一建设和统一调度,有力支撑行内信息科技建设。
二、构建高质量可持续发展的数字化引擎
金融行业对基础设施高可靠、高安全、可持续有着极致要求,算力基础设施是金融业务的数字化引擎,构建多维度、多层次的安全保障体系尤为重要。邮储银行运营数据中心从一体化安全体系、节能减排、保障业务连续性三个方面入手,为全行高质量发展提供可持续的数字化引擎(如图2所示)。
图2 邮储银行可持续的数字化引擎
1.一体化安全体系
随着算力基础设施服务范围的不断扩大,其安全体系需要以数据安全为主线考虑云、网、边、端多个层面。数据是银行业务稳健、快速发展的核心驱动力,一方面,银行可通过数据联邦等技术跨行业、跨领域地合法使用外部数据;另一方面,C端的人工智能应用迅猛发展,银行的触客、获客方式将出现革命性变化,银行业务应用将持续扩展。这意味着银行过去相对封闭、自成体系的架构将发生改变。邮储银行在算力基础设施建设过程中充分考虑安全因素,制定了全行统一的标准云建设安全规范,加速构筑一体化的安全防护体系,在安全互访、业务隔离、数据及应用安全、防泄露、防勒索等领域适应不断变化的业务需求。
2.节能减排
在“双碳”目标指引下,国家对数据中心能耗提出了更加严格的要求,算力爆发式增长和降低碳排放之间的矛盾愈发突出,算力基础设施低碳化升级势在必行。
邮储银行主要从两个方面保障算力基础设施的低碳化:一是采用系统级创新技术降低数据中心能耗,基于数据中心制冷系统运行参数、用电功耗、外部环境等大量历史数据,建立参数预测模型,并以此为基础构建数据中心空调水系统及风系统的全局优化算法和能效管理系统,取得了制冷系统提升8%的节能效果;二是在提升资源利用率上做文章,通过大规模容器化和容器调度提升数据中心的资源利用率,初步实现跨中心容器集群的管理和调度,积极探索面向资源使用率的二次分配,以进一步提升效率。
3.保障业务连续性
保障银行业务连续性对于金融稳定和经济健康发展至关重要,可确保银行能够抵御突发事件带来的冲击,体现在供应保障、业务连续性和持续创新等多个维度。邮储银行选择自主创新的数字化发展道路,不断将自主可控基础设施及基础软件技术融入标准云设计。经过多年的努力,采用全栈自主可控技术构建的算力基础设施已经成为邮储银行主流基础设施,承载了包括新一代核心系统、手机银行等在内的90%以上的业务系统,同时通过标准化集成验证实现了多元化供应保障。
在业务连续性方面,邮储银行通过业务分级识别出关键业务及关联系统,体系化完成高可用设计,采用全域容灾和业务连续性保障手段,提升应用多地多活能力,结合分布式技术强调跨地域多中心的业务聚合。邮储银行运营数据中心全面优化数据中心间、多中心广域网和各分支网点的互联,加强端到端的网络韧性体系建设,有力支持了应用多中心部署。目前,北京同城数据中心、合肥同城数据中心的网络延时低于1毫秒,北京至合肥异地网络延时低于20毫秒,可靠性达到5个9(年化故障率小于5分钟),有效支持了新一代个人业务核心系统、公司业务核心系统、信用卡核心系统、手机银行等重要系统的上线及稳定运行,支持同城双活、“两地三中心”、单元化部署等多种部署形态。
此外,邮储银行还通过对生成式人工智能等创新技术进行大规模应用来提升可持续性能力,以期在竞争激烈的市场中保持领先地位。
三、AI算力基础设施构筑金融创新加速器
1.AI算力赋能技术创新
AI技术以其强大的数据洞察和理解生成能力,成为金融科技创新和发展的重要动力。邮储银行在“十四五”初期就开始布局“邮储大脑”,目前已构建感知和决策两大区域。随着生成式AI大模型的兴起,邮储银行制定了从感知洞察向生成创造升级的邮储大脑2.0计划。
邮储大脑2.0分为三层——AI算力基础设施层、大模型平台层和大模型应用层。其中,新建的AI算力基础设施(如图3所示)采用大集群模式,将1024张国产NPU卡构筑在一个集群内,同时配套大模型训练及推理所需要的基础云服务和大数据服务,实现异构算力的统一纳管及弹性调度。
图3 邮储银行AI算力基础设施
2.面向大模型训练及推理的AI算力资源池特点
根据尺度定律(Scaling
Law),只有在足够参数规模和算力的支持下才能涌现优异的学习和生成能力,这就导致面向大模型的AI算力基础设施与通用算力设计有着显著不同(见表1)。AI算力基础设施以算力为中心,强调通过整体协同配合实现较高的算力线性比,具有集群规模大、协同度高、算力多任务调度、高耗能等特点。
表1 面向交易的通用计算和面向大模型训练的智能计算对比
大模型训练本质是分布式并行计算,需要充分考虑训练过程的多方协同和网络互联。训练过程需要各个环节协同,以避免单一任务的停滞导致整个训练任务的暂停或失败。实际部署中,通常会把样本面和存储面、业务面和管理面合并以降低成本,但参数面需要满足训练过程多卡多机的集合通信需求,可采用RoCE网络并通过感知计算的全局负载均衡技术实现无网络拥塞。总体来说,需要从集群角度考虑多方协同、集群统一运维、基础设施改造。AI大模型训练集群如图4所示。
图4 AI大模型训练集群示意
多方协同涵盖软硬协同、算网协同、算存协同,其核心目的是提升多任务并行的训练和推理场景的算力利用率,达成良好的线性度,并构建异常感知及快速处置能力。管理上,需要构建面向算力集群的统一运维平台,实现多类设备管理和NPU训练任务路径感知,对训练过程中的低效、中断场景进行快速诊断和运维处置。
AI算力基础设施设计需要同时考虑大模型训练和推理场景,以及大小模型并存情况。目前,邮储银行的AI算力需求极为旺盛,在研发代码、营销、智慧用数、运维助手等场景已经开展了大规模实践。银行业务的特征会带来明显的算力潮汐效应。邮储银行AI算力资源池采用容器技术资源,分为三个资源池:为训练预留的训练池、为日常推理准备的常备推理池以及弹性池(可以通过算力调度平台按需划拨),从而实现算力资源的高效利用。
需要注意的是,数据质量决定模型能力的上限,高质量训练数据、精准的检索增强生成数据在模型训练与应用过程中发挥着非常重要的作用。邮储银行在AI算力基础设施建设的同时,加强对相关大数据的应用,引入增强数据检索、向量数据库等配套技术。
3.数据中心运维大模型探索
事实上,数据中心不仅仅是AI算力基础设施的提供方(DC2AI),也是AI技术的使用者(AI2DC)。面对迅速扩张的算力基础设施,邮储银行开展了基于AI的运维大模型实践,通过大模型的智能学习和生成能力构建运维助手,有效降低运维人员的学习成本,提升运维能力。
算力基础设施作为人工智能、大数据、云计算等新一代信息技术的重要载体,已经成为金融数字化转型的底座,被称为“数字经济发动机”,加快算力基础设施建设势在必行。但是,随着银行业自身经营压力的增大,降本增效成为稳健经营的必然选择。大型银行通常对数据中心进行成本效益分析,通过FinOps进行数据驱动的算力基础设施投资决策。
邮储银行运营数据中心持续优化数据中心布局,针对算力基础设施落实好“五效”:一是广泛利用在线离线混部、柔性调度等先进技术实现资源高效利用;二是积极探索液冷技术在AI算力领域的使用,提升算力碳效(CEPS)水平;三是采用基础设施即代码(Infra
as
Code)方法,通过声明式配置编程实现自动化部署和基础环境版本一致,高效响应业务变更需求;四是通过应用分级分类,实现效能的持续提升;五是大力推广跨领域的协同管理和运维大模型,降低运维学习成本,实现高效运维。
当前,世界百年变局加速演进,新一轮科技革命和产业变革深入发展,提升数智化能力不仅有助于推动金融服务重塑升级和企业转型发展,也能进一步赋能实体经济高质量发展。邮储银行运营数据中心全面优化算力基础设施建设,在数字化、可持续化、智能化基础上,着力推进精细化管理,落实好“五效”能力提升,为数字化转型和高质量发展注入强劲的科技动能。
|