设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2023年7月
上证数据副总经理杜建新:上海证券交易所数据中心运维质效提升探索和实践

上海上证数据服务有限责任公司副总经理 杜建新

  近年来,党中央先后制定并发布了网络强国、国家大数据、新基建、“双碳”等一系列新的国家战略,促进我国电子工业、信息技术和节能减排等领域快速发展。作为新基建的重要领域之一,中国数据中心行业发展驶入快车道。金融数据中心承载着海量的业务系统和数据资产,关系到国家安全、国计民生和公共利益,具有基础性、支撑性、全局性作用。

  一、数据中心发展趋势

  国家信息中心统计数据显示,数据中心的用电量已经占我国全社会用电量的2%以上,并支撑了占全国GDP约36.2%的数字经济规模,数据中心在国民经济中发挥着越来越重要的关键作用。

  与此同时,数据中心也面临安全运行和绿色低碳两方面的巨大挑战。国家发展改革委、中央网信办、工业和信息化部、国家能源局四部门联合印发的《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出加快实现数据中心集约化、规模化、绿色化发展的要求,驱动着数据中心不断向大型化、复杂化演进。当前,数字化转型逐步深入,实体经济对数据中心及信息技术系统的依赖度不断加大,使得其安全运行变得越来越重要。

  此外,为实现“双碳”目标,国家提出新型基础设施建设和绿色金融发展的战略,要求新建数据中心实现高效、绿色、节能的可持续发展。地方政府相继出台了通过能耗指标约束数据中心无序发展的政策。例如,上海要求新建数据中心PUE控制在1.3以下,并禁止在中环内新建数据中心;北京要求PUE不超过1.4,中心城区全面禁止新建和扩建数据中心。

  二、金融数据中心运维面临的挑战

  近年来,金融数据中心的安全、稳定运行,已成为防范金融风险的重中之重。《证券期货业科技发展“十四五”规划》强调,要以维护资本市场稳定和做好各类风险的防范化解工作为前提,按照资本市场改革发展和“六稳”工作要求,夯实重要金融基础设施,保障信息系统安全稳定运行,积极稳妥推进证券期货业数字化转型,在审慎监管的前提下开展金融科技创新。

  同时,国家持续提高对网络安全工作的重视程度。2021年9月1日施行的《关键信息基础设施安全保护条例》明确了关键信息基础设施保护流程,并要求关键信息基础设施运营者加强攻防实战能力建设。2022年9月,国家互联网信息办公室发布了《关于修改〈中华人民共和国网络安全法〉的决定(征求意见稿)》,加大了对国家关键信息基础设施运营者违法行为的处罚力度。近年来,公安部、人民银行、原银保监会等部门相继出台了一系列网络安全监管制度,敦促各关键信息基础设施运营单位快速提升攻防实战能力,将监管重心逐渐由合规要求向能力提升转变。可以预见,我国金融监管部门对于以数据中心为代表的关键信息基础设施的防御能力的要求不断提高,关键信息基础设施防护成为总体国家安全观的有机组成部分。

  此外,如何因地制宜开展数据中心绿色节能运行,摸索碳中和路径,也是摆在所有相关从业者面前的一道必答题。《证券期货业科技发展“十四五”规划》指出,探索打造低碳节能的数据中心基础设施,打造具备高可靠机房、智慧型园区、精细化管理、国际化服务、示范性价值且绿色环保的世界一流行业数据中心。

  在此背景下,如何平衡好安全与节能的关系,为资本市场运营高可靠、安全、绿色的金融数据中心,成为上海证券交易所(以下简称“上交所”)的工作重点。

  三、上交所数据中心运维质效提升实践

  近年来,上交所规划了“核心一加三、两地三中心”的数据中心布局。其中,以金桥数据中心和陆家嘴数据中心为核心交易系统的同城主运行中心,以外高桥数据中心为异地灾备中心,这也符合证监会对异地灾备的要求。金桥数据中心于2019年竣工投产运行,获得了中国质量认证中心(CQC)数据中心场地基础设施认证的增强级(GB50174-2017A级)认证,是新一代高标准的金融数据中心;陆家嘴和外高桥数据中心建成时间较早,陆家嘴数据中心刚完成改造搬迁,外高桥数据中心的翻新改造也即将开展。

  根据国家“双碳”目标和数字化转型要求,上交所在《上海证券交易所“十四五”科技战略规划》中对统筹数据中心管理作出了全新的部署,总的思路可以概括为“一个整体,两个抓手”。

  “一个整体”即三中心一体化管理。逐步实现金桥、陆家嘴和外高桥三中心基础设施的统一管理,包括统一运维标准、制度、流程,实现云端集中监控和指挥调度,整体规划技术改造和设备更新,共用技术服务和备品备件,实现资源共享、信息互通、协调一致,提升运维效率和安全保障能力。

  “两个抓手”即数字化转型和绿色低碳发展。一是围绕“增效”,探索实践数字化转型,利用数字化的思维和技术对三中心的组织架构、业务流程、服务体系进行系统性重塑,全面提升安全、效率和服务水平,打造数字化数据中心,夯实数字化基础设施。二是围绕“降耗”,统筹推进绿色低碳发展,在确保安全的前提下,提高精细化运维能力,加强绿色节能技术应用和清洁能源利用,打造绿色低碳数据中心,逐步形成与自身相适应的“碳中和”方案。

  1.加快数字化转型

  党的二十大报告指出,完善科技创新体系,坚持创新在我国现代化建设全局中的核心地位。随着国家对科技创新重视程度的不断提高,科技作为第一生产力发生了重大变革,数字创新技术正在全面替代传统的信息技术,成为金融生产力的新核心,为推动我国经济高质量发展、推进中国式现代化建设注入强劲动能。加快数据中心运维的数字化转型,促进新技术与新模式应用,将有助于提高数据中心的综合运维质量。

  上交所数据中心早期采用了属地化管理模式,除金桥数据中心采用了电子化的运维管理平台之外,其他数据中心均使用传统的人工线下管理模式。从金桥数据中心的使用情况来看,电子化运维管理平台将动力环境、楼宇自控、视频监控、消防等11个子系统全部纳入集中监控,并配备了事件管理、变更管理、设备管理等20个核心管理功能模块。电子化运维管理平台如同上交所数据中心的“超级大脑”,高效监控、集中管理数据中心的“风火水电”,统一调度运维资源,确保数据中心安全、高效运行;同时通过对各项运维数据进行收集、分析与报表,制定合理的运维策略并提供优化数据支撑。目前,上交所已逐步构建了依托智能终端的移动运维模式,通过数字化运维管理将人工运维转变为系统运维,实现了运维管理的标准化、精细化与智能化。

  在2022年开展数据中心一体化管理之后,上交所开始逐步推进电子化运维管理平台的多地化部署,实现多地数据中心运维管理的“一网通办”。但数据中心的多点分布,使得日常运维管理更加依靠电子化运维管理平台。因此,出于提升质效的考虑,上交所还进行了以下几方面的数字化转型探索。

  一是开展典型风险智能溯源,提升应急处置能力。以数据中心机房单路断电为例,电子化运维管理平台运用智能设施、业务、表单流程等分析引擎,制定了智能告警处置策略。当发生断电故障时,电子化运维管理平台可在5秒内将大量相关告警自动关联到根因告警下,同时将根因告警短信自动推送给相关人员。在平台的统一调度下,监控人员可以查看实时参数、设备机历、故障记录,并通过视频监控与现场联动,指挥应急处置。现场人员根据总控中心的联动指挥和智能终端推送的应急操作流程(EOP)开展应急处置,紧急联系供应商,调用专用工具库存,开展应急抢险。

  二是构建核心系统仿真平台,提升演练备战水平。为确保安全运行,金融数据中心的电气、冷源系统架构一般采用容错型设计,系统逻辑较为复杂,导致对日常运维的实操培训、应急演练以及版本测试等工作不适合进行在线操作。上交所通过电力、冷源和运维平台仿真系统,1:1真实还原实际生产系统,用于展示系统故障、场景切换、变更操作等过程,通过仿真虚拟操作,让运维人员真实了解各专业系统的潜在风险,有效提升运维人员的综合能力。

  三是进行设备健康度预测及辅助排障。在建立全量设备信息的基础上,上交所还构建了一套基于设备运行健康度的预测系统,通过对静态设备数据和动态告警数据的过滤和挖掘,可从运行状态、系统冗余、维护记录、备件库存等维度动态评估设备健康度并预测故障。目前,该系统已经覆盖冷水机组、精密空调、UPS等重要设备。例如,冷水机组常见的喘振故障,会导致设备停机、供冷中断、设备受损等严重后果,对此,通过健康度预测系统中对故障关联参数的挖掘和分析,可识别出“冷却水泵运行电流”指标,该指标会自动与喘振故障强相关。通过动环平台的动态监测,可以提前发出突变系统相关问题的预警,为应急抢险争取宝贵的时间。

  此外,上交所还开发了一套辅助排障系统,构建了包含1万多条故障数据的排障经验库。该系统能自动识别平台的告警信息,分析故障关键词,匹配排障经验库数据,对故障原因进行概率排序并提供解决方案。例如,在精密空调方面,上交所已经收集了10多种故障原因和处置手段,运维人员在现场抢修时,可通过智能终端的“概率排序”提示,快速定位故障原因,处置及消除隐患。

  四是实施智慧安防与运维联动。通过数据中心原有的安防监控摄像机,上交所开发了一套搭载人脸识别技术和AI算法的安防寻迹系统。该系统能自动捕捉并识别监控范围内的人脸图像,快速、准确找到关键信息,并且第一时间辨别出陌生人;同时,能记录重点区域的人员轨迹,不仅能用于事后追溯特定人员是否有越权或违规行为,也可辅助管理巡检人员是否按照规定路线开展工作。此外,该系统还构筑了一道虚拟电子围栏,全天候保护油罐区、动力楼等重点区域。

  2.推动绿色低碳发展

  金融行业有着更为严苛的安全标准,因此金融数据中心基础设施的技术选择更偏向保守,特别注重安全可靠。新形势下,金融数据中心节能减排不再是锦上添花,而成为实实在在的运维绩效目标。

  上交所金桥数据中心在规划设计阶段就充分考虑了安全与节能的有效平衡,在安全可靠性设计标准、整体架构设计上,参照UPTIMET4容错级别进行设计,并且在确保安全可靠的基础上,对绿色可持续发展路线也进行了深入探索与实践。

  一是通过对节能技术的运用探索可靠节能路径。在高效能方面,采用了三级离心式冷水机组、高频UPS、高效能变压器、EC风机的精密空调等设备;在低损耗方面,采用全园区中压供电及变压器上楼层(缩短低压供电距离)、智能母线(树干式供电)、冷冻水管道垂直布放(缩短供冷距离)、集中冷源备份系统(减少冗余设备)等措施;在能源再利用方面,通过免费制冷、余热回收(空气热、冷凝热)、太阳能热水、雨水循环利用等来实现;在可持续发展方面,采用了柴油发电机耦合飞轮储能不间断电源系统。

  二是通过精细化运维挖掘节能潜力。采用全冗余制冷系统冷备运行,针对全冗余制冷系统的不同场景,设计了多运行切换策略,并辅以不间断制冷系统和维温程序,使得两套全冗余制冷系统的安全性在冷备运行时不低于热备运行;应用12度高温冷冻水系统,显著提升冷水机组能效比(COP),并结合机房热通道封闭技术,大幅提升回风温度,同时配合双盘管预冷式精密空调,有效延长自然冷却使用时间至7~9个月,从而达到绿色节能的目的;实行BA系统全自动化运行,实现配电和暖通系统的全自动运行,无需人工干预即可实现设备和系统级的冗余切换,使运维人员的数量不再基于故障处理要求,而是基于应急响应和故障恢复要求进行配置,人员配比更优化。

  三是通过新技术的引入开辟节能新天地。首先,应用AI技术,探索节能新路径。探索引入iCooling节能技术,通过识别采集800多个关键信息采集点位,实现制冷链路全局可视;利用AI算法,拟合出PUE与关键参数的数学模型,该模型PUE预测精度达到99.5%以上,在安全保障要求的边界内,可在1分钟内从140万个参数组合中找到最佳策略,并预测出该策略下的全局能耗分布。经过1年多的性能调优运行,上交所金桥数据中心年均PUE下降约13%。

  其次,应用CFD气流仿真模拟技术,挖掘节能潜力。通过创建典型机房模块的三维模型,导入系统运行参数,仿真计算还原IT设备运行环境的全维度温度场、速度场等3D可视化气流组织结果和关键指标,并基于可视化结果进行分析,可提供个性化的IT设备上架位置建议,并为运维人员提供空调故障应急处置方案、空调最佳设定温度和最优运行策略等,在保障安全运行的前提下,进一步挖掘空调系统的节能潜力。以日常在已投产的机房模块内增加小型机或刀片服务器等高功率IT设备上架方案为例,考虑到在用IT设备的运行安全,现场已经不具备试错条件,将设备运行数据导入仿真平台,通过计算输出IT设备放置在不同区域的可视化气流组织结果,将可对比分析找出最佳上架位置,为保障IT设备安全稳定运行提供客观准确的数据支撑,有效规避高功率IT设备运行的局部过热风险。

  2023年是全面贯彻落实党的二十大精神的开局之年。上交所将扎实践行服务我国资本市场的政治性、人民性,提升金融数据中心运维管理的专业性,以高质量发展为主线,聚焦用户服务,加快数字化转型和绿色低碳发展,发挥行业引领作用,规范促进行业金融科技发展,切实保障资本市场信息技术系统的稳定运行。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2023年第7期目录
中国工商银行数据中心总经理刘方洲:工商..
中国农业银行数据中心总经理佟梅:依云而..
邮储银行数据中心总经理马德辉:拥抱金融..
兴业银行数据中心总经理吴上荣:打造先进..
上证数据副总经理杜建新:上海证券交易所..
工商银行业务研发中心高级专家郝毅:基于..
任西明:大湾区“跨境理财通”重点项目建..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多