设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 金融信息化 > 金融科技
金融科技
面向云化架构的SDN网络智能分析平台建设实践
来源:中国金融电脑  作者:孔祥超 韦晓东 聂銮伢 阚晓立  日期:2023/11/20

中国邮政储蓄银行数据中心 孔祥超 韦晓东 聂銮伢 阚晓立

  近年来,随着互联网业务的蓬勃发展,银行业务量呈指数级增长,使得传统数据中心的运营压力与日俱增,如业务部署效率低、资源利用率低、运维管理复杂等问题愈发凸显。在此背景下,金融数据中心逐步向云化架构演进,并对其网络运维能力提出了新的挑战。

  伴随云网一体化架构的不断升级,数据中心网络运行环境更为复杂、运维监控工具不断增加,网络运维成本也随之迅速攀升;同时,应用间的访问关系和网络路径愈发难以梳理,依赖人工经验很难实现快速定位。对此,邮储银行创新实践了新一代SDN网络智能分析平台,以进一步提升网络运维能力,更好助力银行业务加速发展。

一、网络智能运维建设思路

  为实现智能化运维的发展目标,邮储银行开展基于新一代SDN网络智能分析平台(如图1所示)的建设研究,增强了可视化、自主化和智能化三方面能力。

  1.打造可视化数据底座

  数据底座是运维平台建设的关键基础。当前,邮储银行数据中心新老架构并行,涉及的运维工具众多,且不同系统间存在数据孤立现象,急需建立统一的可视化数据底座。具体而言,平台不仅能够观察设备、接口、链路等物理对象,同时还支持对真实的报文转发路径、业务交互关系和业务流质量等逻辑对象进行监测,且能够实时进行数据采集,如毫秒级识别网络中的微突发流量拥塞现象等。

  2.实现自动化故障排查

  在故障定位方面,平台能够及时、主动地发现网络中存在的故障,并通过对海量数据进行建模分析,自动识别出网络中的异常事件,做到故障主动感知;在应急排障方面,支持自动化融合分析业务流、逐跳路径和故障数据,并可根据不同的故障模式,编排出用户可执行的排障任务链,探索故障自闭环,从而有效缩短故障定位和恢复时长,降低故障定位对人工经验的依赖,提升运维自动化程度。

  3.支持智能化建模分析

  随着数据中心业务的不断演化升级,网络变更事件也变得愈发频繁,进而对运维可靠性提出了更高要求。对此,平台借鉴业界先进的智能化运维经验,通过引入大数据分析技术,可基于知识图谱进行全网建模,进而主动识别可靠性降级等潜在风险,并针对网络进行预测性维护;此外,通过系统性地排查网络健康风险,还可助力构建从“救火”向“防火”转变的主动预防体系。

图1 新一代SDN网络智能分析平台架构

二、网络智能运维实践成效

  截至目前,SDN网络智能分析平台已在邮储银行云网数据中心部署试点,采用可靠性集群及服务化架构,可统一管理多个业务区域,且经过数个版本的更新完善,该平台在日常监控和应急处理等多个运维场景中均取得了良好成效。

  1.主动监控网络故障,实现告警聚合溯源

  在日常监控场景中,传统方式是基于设备上报故障告警或者故障日志,不仅告警数量庞大,逐条分析需耗费较长时间,同时也高度依赖运维人员经验。对此,SDN网络智能分析平台通过将知识图谱技术引入网络运维中,基于智能算法分析故障传播规则,实现了对海量故障事件的聚合溯源(如图2所示)。例如,在发生异常事件后,平台可分钟级感知异常事件,自动定位故障点,并同时呈现故障传播路径、识别影响范围。经实践验证,该模式不仅可大大降低人工分析告警日志的时间,且通过将平台与控制器系统对接,还可在发现故障时一键跳转到控制器,自动推荐修复方案,进而快速进行闭环解决。

图2 故障告警聚合溯源逻辑

  2.智能评估网络状态,实现风险主动预防

  在网络检查场景中,传统监控方式使用的CPU/内存、端口流量等性能指标大多是基于人工设定的固定阈值,易造成误报或者掩盖异常情况,且网络可靠性、流量负载、容量等还需要人工分析比较,无法开展更深层次的网络风险预测。对此,SDN网络智能分析平台通过引入机器学习算法,可基于网络历史数据自动学习给出KPI指标的动态基线,并每天自动更新,从而实现对网络性能异常的智能化检测;同时,通过对当前采集的运维数据进行二次加工,以及结合告警、性能、配置、表项、业务流等多个维度数据进行相关性分析,还支持在知识图谱中进行网络风险建模,进而结合多种预测算法,全面评估网络风险。截至目前,平台已实现40多种关键风险分析,可从可靠性、一致性、容量、性能、稳定性等5个维度,系统性分析潜在风险隐患,并每日主动推送评估报告,高效支撑网络健康运维。网络健康评估逻辑如图3所示。

图3 网络健康评估逻辑示意

  3.关联诊断网络路况,实现异常快速定界

  在应急处理场景中,业界大多是通过NPM抓包来实现应用数据感知,但受限于成本因素,通常只能在核心/汇聚节点部署,无法针对全网进行有效监控,特别是在边界下沉的云网一体化场景中,跨界诊断已成为业界面临的共性难题。对此,平台通过分析全网IP快照,可快速识别出VM IP所接入的交换机及端口信息,进行VM上线/下线/迁移的全生命周期管理;同时,通过对TCP建链、拆链报文(SYN、SYN ACK、FIN ACK、RST)的数据进行采集,可主动分析业务流TCP建链状态,还原报文在网络中的真实转发路径,感知故障断点、微突发、丢包等情况,做到网络路况可视,开展自动化诊断并给出分析结论,实现网络故障快速定位。此外,由于仅采集TCP建链拆链报文,不含数据报文,该模式还可大幅减少需要采集的数据量,如TCP控制面报文的数据量在整体数据流量的占比会小于1%。数据报文采集分析流程如图4所示。

图4 数据报文采集分析流程

  综上所述,基于新一代SDN网络智能分析平台建设,邮储银行进一步完善了数据中心网络运维体系,解决了人工协作及“数据孤岛”等难点问题。后续,邮储银行将不断加强在运维分析领域的创新探索,如结合全流镜像方案进行重要业务保障,以及实现应用网络一体化运维等,持续为业务稳定运行提供主动保障。

 
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多