面向云平台的网络流量采集分析研究与实践
来源:中国金融电脑 作者:韦晓东 聂銮伢 孔祥超 谈小冬 日期:2024/6/12
文丨中国邮政储蓄银行运营数据中心 韦晓东 聂銮伢 孔祥超 谈小冬
近年来,金融科技与传统银行业务加速融合,日趋复杂的应用系统交互对网络运维管理提出了更高要求。尤其是对基于云架构建设的新一代数据中心而言,网络流量是运维系统分析业务性能质量的重要数据源,而有效监管业务全数据流也成为当前提升整体运维能力的关键要素。顺应上述趋势,邮储银行在推进云网一体化架构落地的同时,通过对流量数据实施全面采集与分析,从网络视角挖掘业务性能质量的有效信息,逐步形成了一套以业务为核心的新一代网络运维体系。
一、云平台网络流量采集分析现状
当前,随着云计算、大数据、人工智能等新技术的广泛应用,应用系统及基础网络的复杂度不断提升,给传统运维模式带来了巨大挑战。一方面,由于云平台网络流量不可视,以及业务路径往往要跨越多个分区,导致应用系统一旦发生故障,依靠传统流量运维工具很难快速获取、分析全局流量数据,易存在网络路径黑盒,故障分析定位较慢;另一方面,面对硬件SDN、软件SDN、容器等多种架构并行的网络环境,采用传统方式进行网络流量采集和分析的成本较高,且无法实现对云平台流量的有效覆盖,特别是对于传统流量采集模式未覆盖的网络设备,更是无法快速获取其报文流量。
针对上述挑战,邮储银行亟须制定一套适用于多云架构,并支持统一进行流量采集、分析及监控的可行性方案,以有效解决云平台网络流量的监控盲区问题,进一步提升故障定位能力,更好地保障业务连续性。
二、云平台网络流量采集分析方案的建设思路
根据《中国邮政储蓄银行“十四五”规划纲要》中的网络建设规划,为加强网络运维能力建设,邮储银行基于现有流量可视化平台,结合云内场景及流量特性,综合考虑覆盖度、使用效率、建设成本等因素,通过与华为等团队进行技术研讨,全新设计了云平台网络流量采集分析方案:
一是云平台关键位置采用全流镜像方案,用于流量的实时监控预警以及故障的回溯分析诊断;二是云平台网络设备采用特征报文镜像方案,实现TCP
控制面流量报文快速分析、云内全路径可视;三是对于全流镜像未覆盖的网络设备采用按需镜像方案,即通过对真实路径设备下发策略,使其按需快速获取镜像流量进行分析和展示,从而以更低成本实现应用报障诊断。
1. 关键位置全流镜像
通过在流量出口等关键位置旁路部署全流探针,镜像出入口的全流报文,网络设备流量将通过TAP
交换机镜像到网络流量分析系统的探针服务器上,并由系统计算出重传、丢包、时延、速率等重要指标。该方案不仅可实时监控关键业务的网络性能与行为异常,还支持网络流量预警以及对异常报文的回溯举证,从而可显著提升网络运维人员的运行保障能力和问题处置效率。
2. 云内设备特征报文镜像
该方案是指基于ERSPAN(Encapsulated Remote Switched Port Analyzer)技术镜像TCP控制面报文,通过监控TCP 特征报文的建链、拆链,将TCP 协议中的SYN、FIN、RST 报文镜像到网络流量分析系统,再由系统针对每一个TCP
报文进行计算,还原TCP 报文传输的每一跳设备,同时检测TCP 会话异常。其中,ERSPAN 是一种常用的报文远程镜像技术,可基于GRE
隧道封装,通过以太网将报文转发到任何IP 路由可达的地方。该方案只采集TCP
控制面报文,镜像的流量较小,因此无需额外部署探针资源,即可实现轻量化的流量路径可视。
3. 按需全流镜像
对于全流镜像未覆盖的场景,当需要进行故障定位时,可选择真实路径沿途的网络设备进行按需抓包,并通过ERSPAN 协议带内转发,动态对设备下发指定IP
对的全流镜像配置,之后再通过网络流量分析系统进行直观呈现,分析定位出故障原因。该方案面向全流镜像未覆盖的场景可快速实现流量获取,并直接进行可视化展示,从而有效缩短故障分析定位耗时,提供一种高效、低成本的应用报障诊断模式。
三、云平台网络流量采集分析方案的实践成效
截至目前,新一代云平台网络流量采集分析方案已在邮储银行运营数据中心部署试点,并在日常运维监控、故障诊断和业务重保等多个场景中取得了良好成效。
1. 关键网络位置开启全流镜像,实时记录应用网络性能
通过对云平台的Border Leaf 等关键网络设备部署全流镜像,使用TAP
交换机镜像到探针服务器进行关键节点的流量采集,再将采集到的流量数据接入网络流量分析系统,邮储银行实现了网络流量实时监控,不仅可分析应用网络性能,覆盖延迟、丢包率、带宽利用率、重传率等关键指标,同时还支持故障回溯分析。另外,基于全流数据分析的底层架构,邮储银行进一步还原关键应用以及应用之间的互访关系,借助应用流量质量分析手段,以及应用流量与网络数据协同机制,实现关键应用互访质量主动保障,可及时感知应用质量异常,并通过应用和网络关联分析,快速定位问题原因,系统性保障关键业务体验。全流镜像方案如图1
所示。
图1 全流镜像方案示意
2. 基于ERSPAN 技术进行特征报文镜像,实现业务真实路径精准可视
针对云平台内所有的TCP 报文流量,邮储银行通过使用ERSPAN 对控制面报文进行镜像,实现对全网TCP
流量的采集和分析。例如,特征报文镜像可将不
同位置的流量进行叠加分析,并精准识别业务交互IP
对、转发路径,确保性能与连接可用性,充分满足日常运维中的网络监控诉求;同时,在网络排障场景中,仅需一键输入源、目的、端口等应用IP
信息,即可快速分析该应用所经过的网络路径,以及路径中每个节点的质量情况,从而缩小需要排查的故障域,提升问题定位效率。特征报文镜像方案如图2 所示。
图2 特征报文镜像方案示意
3. 沿真实路径按需抓包,以更低成本实现应用报障诊断
针对全流镜像未覆盖的场景,邮储银行采用按需抓包的方式进行报文镜像,即依托网络自动化平台,对设备下发指定IP
对的镜像配置,快速抓取报文流量,并通过ERSPAN 技术将流量送给探针,实现对指定IP
对的全流数据分析及可视化展示。在实际场景中,按需抓包可以减少不必要的数据捕获,提高分析效率,节省存储空间,从而以更低成本实现异常报文诊断。同时,与传统方案相比,网络自动化平台与流量可视化平台联动,还可进一步提升流量分析效率,使流量获取及展示时间由原来的小时级缩短至分钟级,大幅缩短故障定位时间,提升网络运维效率。按需全流镜像方案如图3
所示。
图3 按需全流镜像方案示意
综上所述,邮储银行云平台网络流量采集分析方案高度契合了多云架构,在进一步完善自身流量监控体系和故障处置体系的同时,显著提升了网络流量分析能力。面向未来,邮储银行将继续深耕科技创新,结合流量数据与AI
算法开展应用质量多维画像建模,加速推动数据中心从“以网络设备为中心”向“以应用体验为中心” 转变,构建智能化网络运维能力,赋能银行业务高质量发展。
|