中美联泰大都会人寿保险有限公司信息科技部 孙晓鸥
数据建设在数字化转型中发挥着至关重要的作用,
而数据质量又是数据价值实现的核心保障。为解决数据维护成本高、质量差、规范性不强等问题,进一步提升数据质量,有效降低处罚风险,中美联泰大都会人寿保险有限公司(以下简称“大都会人寿”)启动全链路数据质量控制建设——利用大数据底座技术和数据质量管理方法论,构建全链路数据质量控制一体化的解决方案。目前该解决方案已试点应用,成效凸显。
对于大都会人寿来讲,充分运用大数据技术和数据质量管理方法论,开展数据湖全链路数据质量控制,从业务和技术两个方面对数据链路中的数据准确性和完整性进行监控,可有效增强数据监控能力,整体提高监管数据报送质量,降低合规风险;对于保险业来讲,通过开展数据全链路数据质量控制,可为保险业信息系统建设提供参考,为保险业数字化转型积累经验,助力提升保险公司合规水平。
一、项目背景
1. 外部背景
近年来,国家及地方保险监管机构逐步加强对所属地区展业保险公司的监管要求,对违反规定的金融机构处罚越来越重,对地域差异化的要求也逐渐加大,保险公司必须严阵以待,做到数据要求全部满足。监管机构通过现场和非现场等监管方式对保险公司报送数据质量进行评估,据此给保险公司进行排名,并根据发现问题情况进行问责和处罚。
2. 内部背景
在应用方面,大都会人寿监管报送系统繁多,且以纵向管道式建设,功能重复,运维成本高,同时在数据完整性和准确性方面的监控有待进一步完善。全链路数据质量控制项目的实施可实现统一调度、统一监控、统一管理,达到降本增效的效果。
在数据方面,历史原因导致大都会人寿的源数据错综复杂,数据治理难度较大,缺乏统一的标准和规范,
系统接口层的口径不一致问题尤为突出。报送时,可能会导致偶发性数据质量问题,全链路数据质量控制项目的实施可以保障数据传输过程中数据的完整性和一致性,最大限度降低报送风险。
在工具方面,大都会人寿缺乏完整统一的监管数据管理平台和有效的元数据管理抓手,缺乏对数据的精准校验机制和统一、完整、可靠的内部数据来源,缺乏有效的数据服务支撑工具,而全链路数据质量控制项目的实施可以显著提升工具建设及运用水平。
二、方案解决
大都会人寿监管报送数据链路包括业务系统、贴源层、整合层、明细层、数据集市、监管系统等六层,链路较长且数据耦合度较高,任何一个环节都有可能出现异常。全链路数据质量控制目标是将各层数据差错几率降到最低,同时较大提升出错响应和修复能力。全链路数据质量控制场景如图1
所示。
图1 全链路数据质量控制场景示意
上游业务系统—数据平台(贴源层):采用数据日志实时捕获技术,将数据单向传输到数据平台,主要通过实时总量比对,保证数据流不中断,数据不丢失。
数据平台(贴源层)—数据平台(整合层、明细层、集市层):利用ETL 工具集中调度和处理,将数据单向传送数据平台内各数据逻辑层,主要通过T+1
数据总量、特定数据业务指标比对,保证汇总、明细数据的准确和完整。
数据平台—下游监管系统:利用ETL 工具集中调度和处理,将数据单向传送下游监管系统,主要通过T+1
数据总量、业务指标比对,以及监管上报自检程序特定场景检查,保证上报数据的准确、完整、及时。
1. 整体架构
全链路数据质量控制的整体架构采用分层设计(如图2
所示),实现从源头到应用、从开发到管理、从技术到业务、从存储到计算、从职责到安全、从标准到执行的全方位治理,确保数据质量的自主可控。
图2 全链路数据质量控制整体架构
全链路数据质量控制的整体架构自底向上分别为数据源、数据采集服务、数据存储、数据质量分析服务、平台服务、用户层等六层,覆盖数据处理全流程,实现上中下游的全场景数据质量管控。其中,数据采集服务、数据存储、数据质量分析服务、平台服务等主要依托数据湖平台,通过工具自动化实现数据质量控制;数据源层为上游业务系统,主要通过开发管理规范和重要数据监控等手段进行数据质量控制;用户层则通过数据管理规范等进一步明确职责,对问题处理流程、质量评价等进行质量控制。
2. 数据对账机制
全链路数据质量控制采用按场景逐一进行对账的方式开展具体工作(如图3
所示),对账场景、对账口径、对账指标、对账逻辑、对账时机等全部实现可配置化。系统对对账结果进行完整的记录并发起问题处理流程,跟踪处理状态,使得所有数据问题都能得到有效控制。通过整个对账机制中考虑问题梳理、对账方式选择、对账粒度分析、对账口径确认、对账时机分析等方面,大都会人寿形成一整套对账方法论和落地措施(如图4
所示)。
图3 全链路数据质量控制数据对账机制示意
图4 大都会人寿对账机制方法论示意
3. 数据质量闭环管理
大都会人寿全链路数据质量控制建设以数据质量提升为目标,以数据治理工具为抓手,持续丰富完善数据标准和数据质量规则,深化推动数据源头治理和成果运用,采用PDCA
数据质量闭环管理方法,建立覆盖数据处理全生命周期的标准化流程和系统自动监控机制,
增强事前预防和事中监控能力。此外,采用定期发布质量报告和不定期数据质量抽检相结合的方式进行事后控制,同时根据业务影响程度,建立数据应用预案,提升事后评估处理及应急风险处置能力,保证数据的真实性、准确性、连续性、完整型、及时性。
三、实施效果
大都会人寿全链路数据质量控制项目的实施,可有效解决数据报送的完整性和一致性问题,实现数据口径统一、业务指标和技术指标全覆盖、源头问题及早治理、降低运维成本和规避监管风险等目标,经过综合试点运用,效果显著,具备一定的应用推广示范效应。
该项目采用大数据底座技术和主流的ETL 工具,
易维护,自动化程度高。通过解决上下游数据链路统计口径不统一、统计速度慢的问题,降低数据转换等重复开发成本,可最大程度避免数据报送不完整问题的产生,提升公司的数据治理水平,使内部业务及监管报送更加合规。
1. 项目主要成果
一是提升数据质量。通过统计并比对数据湖中数据链路各层数据,使用主流的ETL
工具,对数据进行批量检核设计,同时适配各种数据库类型,数据比对性能高,从而有效提升数据质量。
二是提升数据治理能力。项目初期配置150 多个技术指标及60
多个业务指标,解决监管标准化系统(EAST)数据报送的完整性问题,实现问题提早发现、提早处理。
三是增强数据处理能力。针对不同的数据特性,使用大数据技术解决海量数据计算统计的性能难题。
四是提升运维监控的自动化水平。由专职监管团队维护,监控流程自动化,通过邮件和即时消息对工作流进行监控,提高了监控的自动化程度。
五是解决监管数据报送难题。该项目有效解决了各个独立的报送系统数据的完整性和一致性问题,可根据各系统的相关指标统一部署、灵活配置,扩展性高。
2. 项目主要创新点
业务指标管理方面,一是业务指标采用配置方式,可根据业务场景及监管要求灵活配置,提升业务指标的灵活性及可拓展性。二是集中管理业务指标,上下游采用统一业务指标,通过对比上下游业务指标,保障数据完整一致。三是对部分业务指标进行详细数据多层比对,细化统计粒度(保单号、赔案号等),方便快速定位问题数据,提升问题数据处理时效。四是通过对业务指标的监控及排查,不断完善业务指标的精准度,让业务指标更符合业务场景和完整性要求。
数据资产管理方面,一是通过制定数据治理流程,让全链路的效能得到最大限度的发挥,从数据源头到问题修复形成完整闭环,提高数据可信度。二是采用数据质量管理和会计账目核对的方法对动态数据进行数据质量控制,为下一步开展数据资产管理提供可能。
资源利用方面,通过多层资源窗口实现多任务统一调度,提升资源利用率。
|