设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2014年6月
吴永飞:商业银行数据生命周期管理探讨

华夏银行股份有限公司信息技术部总经理 吴永飞

  近年来,银行业务发展对信息科技的依 赖程度日益增加,为满足不断增长的业务 规模与不断发展变化的业务需求,各商业 银行不断提升业务系统的建设与改造力度, 逐 步 实 现 了 全 辖 账 务、 信 贷、 客 户 信 息 等 业务数据的总行集中管理。目前商业银行 数 据 集 中 管 理, 实 现 了 技 术 上 高 度 集 成、 营销上高度集约,但数据统一处理也造成 了数据量的急剧膨胀,给数据的管理和维 护带来诸多问题,如存储空间、数据保存、 存储维护成本、大数据处理效率及数据安 全等。

  商业银行积累了海量数据信息,但不是所有的数 据都具有相同的使用价值,随着时间的推移,有些数 据被频繁访问或更新,而有些数据则很少被访问。快 速产生的、大量的、低价值的数据不仅严重消耗了系 统资源、拖累了系统处理性能,还可能影响系统的 稳定性而导致未知的系统风险。事实上,数据是一 种具有生命周期的资源,对数据进行生命周期管理, 研究商业银行客户行为规律和金融业务社会需求, 已经成为金融业发展的趋势和方向。商业银行数据 在不同阶段有其存在的不同意义,有必要根据数据 的业务价值,进行数据规范化管理以提高业务系统 运行效率,保障系统稳定高效运行,降低商业银行 运行和维护成本。

  一、商业银行数据生命周期管理的探索

  传统的商业银行数据管理主要集中于研究备份管 理和灾难恢复等数据可用性技术。随着大数据时代的 到来,国外银行及相关数据平台已开始进行数据使用 管理实践,如 ING Direct 网上银行通过各类历史数 据分析对客户进行分类,筛选出高回报客户,并为他 们提供具有吸引力的利率;谷歌推出的小额贷款产品 ZestCash,考察数千个数据线索,给信用记录不好或 没有信用卡的客户提供贷款服务,避免潜力客户的流 失。商业银行有必要针对数据在不同时期的业务需求 和使用价值,规范数据管理,满足成本效率要求,挖 掘数据中的业务创新价值。

  数据生命周期管理(Data Lifecycle Management, DLM) 概 念 源 于 信 息 生 命 周 期 管 理(Information Lifecycle Management,ILM), 是 对 业 务 系 统 的 数 据进行贯穿其整个生命周期的管理,是一套策略、流 程、实践、服务和工具,从数据创建之初直到最后被 销毁,使数据的业务价值和最合适、最具有成本效率 的基础设施保持一致。

  二、商业银行数据生命周期管理现状

  1. 数据生命周期管理面临的问题

  商业银行普遍拥有众多的业务系统,数据种类也 很复杂,数据规模急剧膨胀,业务系统生产数据库 存放了大量的历史数据,这些数据从系统上线以来 就一直保存在数据库里面,因而生产数据库的规模 一直呈线性增长,容量越来越庞大,面临以下几个 方面的问题。

  一是数据库的体积太大,最直接的体现就是业务 数据库表容量较大,从而导致系统访问性能、响应速 度下降,根据性能测试情况,当主机数据库的配置、 基础环境相同,基础数据量增加到 3 倍时,响应时间 增加到 4 倍,个别业务预期指标无法满足。

  二是数据库表容量太大,给后台的维护带来困难, 导致效率低下,索引优化、数据抽取、统计分析等后 台维护时需要申请较长的维护窗口。如商业银行的核 心系统每天需备份大量的生产数据,随着数据量的不 断增大,备份时间和日结工作时间也越来越长,数据 库锁表风险也随之变大。

  三是一旦发生系统故障或误操作,则数据库的 恢复将非常耗时,对整个业务支撑系统来说可能是 致命的。

  四是所有数据都集中存储在昂贵的高端存储设备 中,随着数据的增长,扩容带来的投资成本也会不断上升。

  2. 数据生命周期管理的目标

  商业银行数据生命周期管理的目标可分为以下三 个层次。第一个层次是,商业银行广泛采用自动化网 络存储技术,以自动化的方式实现信息的管理、共享、 保护、备份、恢复、复制等功能,对数据进行规范化、 分层化管理,使数据存储系统得到充分共享,数据得 到全面的保护。目前大多数商业银行的数据管理处于该层次。

  第二个层次是,商业银行能够按照数据价值、 响应要求、业务需要、成本等因素,采用相应的数 据存储、处理、备份、迁移、归档和回收等技术和 设备,将数据生命周期管理策略成功地应用到业务 系统。这个层次是未来三年大型商业银行数据管理 的目标。

  第三个层次是,跨业务系统实施数据生命周期 管理,兼顾银行内外部数据,对全部应用系统数据 实现自动化、可视化管理。商业银行将从以数据为 核心和对象的角度,研究结构化与异构数据,审视 全部业务流程。这一层次是目前国内外商业银行数 据生命周期管理的长远目标,也是全球各行业大数 据管理的目标。

  当前,国内外知名的存储设备生产商都针对第 一个层次的数据管理需求推出相应成熟的产品和解 决 方 案, 但 很 多 厂 商 在 咨 询 和 实 施 DLM 的 时 候, 为 了 推 动 各 自 存 储 产 品 的 销 售, 将 DLM 与 存 储 软 硬件产品进行捆绑,忽略了业务的实际情况,使得 DLM 局限于存储、备份、归档相关领域中。事实上, 数据生命周期管理的目标是,降低信息利用成本、 提升利用效率。后两个层次的数据管理目标是商业 银行需要重视和着重研究的内容,本文重点针对第 二个层次内容展开分析,并探讨数据生命周期管理 模型的建立。

  三、数据生命周期管理模型

  1. 数据生命周期划分

  在信息系统建设时,就应规划数据生命周期管理 策略,并针对不同系统、不同数据生命周期阶段建立 可操作的生命周期管理规程。按照《人民银行数据生 命周期管理技术规范》定义,数据生命周期一般可分 为四个阶段:在线阶段、近线阶段、归档阶段(离线 阶段)和销毁阶段。下面根据商业银行业务系统实际 情况对各阶段的特征进行说明。

  (1)在线阶段。该阶段数据处于频繁使用期内, 在用户访问频率、业务响应时间、保留价值、信息存 储设备、数据安全保护等方面要求高,处于该阶段的 数据具有保障业务系统正常运转以及维系业务活动 正常展开的功能。

  (2)近线阶段。该阶段数据已过频繁使用期, 但仍处于使用期,只是访问频率较低,在系统资源受 限的情况下,为保障系统的健康安全运行,应将这类 访问频度低、业务响应时间要求较低的数据从系统中 分离出来进行分表或分库处理,但要确保系统仍可无 缝访问,并且访问过程对用户透明。

  (3)归档阶段。该阶段数据已过使用期,但或 因政策制度、法律法规的要求,或具有数据挖掘分析 价值 , 或需支持其他业务开展仍需保存,即数据基本 不再被访问,但仍具有保存价值。这类数据一般保存 在系统主要存储设备之外的存储介质中,且归档后一 般不再提供系统联机访问接口,如有查询要求,需使 用特定的查询工具或将其导入相应系统(如备份系统 或专门建立的查询系统)中。

  (4)销毁阶段。该阶段数据已过规定或要求的保存期限,不再具有保存价值,可进行销毁处理。

  2. 数据在线度

  随着时间的推移,新数据不断产生,历史数据使 用频率不断下降,使用价值也相应衰减到一个较低的 水平。因此,上述的阶段划分是相对的,对在线数据 的定义也是定性的。为了更好地体现数据的生命周 期,需要定量描述数据所处各阶段,引入数据在线度 (Data On-line Level,DOL) γ 准确反应数据的在 线程度和使用衰减情况。数据在线度与用户对数据的 访问频度 a 相关,a 为单位时间访问次数,与数据的 迁移安全性、代价、必要性有关,现设迁移因子为 m,则关联函数为 ,t 为时间。

    新生数据被频繁访问期间,也就是在线阶段,γ 为 1。随着时间的推移,访问频度的变化,数据在线 度随之修正,直至达到某阈值,数据即处于近线阶段。 此后,受 IT 资源所限或其他因素所致,可考虑进行 数据迁移。当γ 趋近于 0 或达到某阈值时,可对数 据进行归档处理。当数据生命周期进入归档阶段时, 需要对数据进行迁移或从系统中将数据分离出来进 行分库处理。但也有部分业务系统,因设备老化、技 术限制或迁移难度大等原因,无法实现对访问频度下 降的数据进行迁移。同时也存在一些数据虽然访问频 度下降,但在一段时间内仍需维持在线或近线状态, 或者借助新技术在满足业务系统正常运转的前提下 提前对数据进行迁移的情况。迁移因子影响了数据在 线度,对数据生命周期阶段划分具有阻碍或促进作 用。综上,在线度关联函数如公式 1 所示:

  

    t 为时间,可根据数据及系统需求,将 单位设为年(或月、日)等。图 1 反应了数据在线度 与数据生命周期之间的关系。

  3. 数据生命周期管理驱动力

  信息系统建设是为了实现业务需求,商业银行要 成功实施数据生命周期管理,必须关注业务系统的特 征属性,制定有效的管理策略。一般而言,数据生命 周期管理策略应遵循以下原则:一是根据业务活动响 应要求与连续性,确保与关键业务流程相匹配,与系 统运行目标保持一致;二是满足管理制度和行业标准 的要求;三是确保关键数据安全;四是依据数据的价 值高低分配适当的存储设备,使重要的数据得到足够 的存储资源,同时兼顾一般数据的存储成本。

  假设数据管理驱动力为 DMDF(Data Management Driving Force),业务因子 s 为不同业务活动所需响 应时间、业务连续性要求等,制度因子 r 为各项规范 标准,价值因子 v 为数据价值及安全性需求。数据管 理驱动力随数据生命周期数据在线度γ 的变化而变 化,关系如公式 2 所示:

  参数 s、r、v 及目标函数与对应的业务系统相关, 且0 ≤ s,v,γ ≤ 1,g(r)标识行业标准要求。 根据不同大小的数据管理驱动力,可以有针对性 地构建合理的分层存储硬件环境,提高现有系统处理 效率和存储资源利用率,满足不同类型的业务数据在 不同生命周期阶段的存储要求。同时,将有效的业务 数据分离出来,加以分类并制定不同的管理策略;将 无用的数据及时加以清理,提高数据的安全性和系统 的可靠性、高效性。

  四、商业银行数据生命周期管理实施

  1. 数据生命周期管理需求

  商业银行对业务系统实施数据生命周期管理的驱 动力来自两方面:一是现有系统已受到或已预测到数 据激增对系统性能、维护成本、数据安全等产生的负 面影响;二是新建系统时提前对上述内容进行考虑。 无论改造还是新建系统,数据生命周期管理实施需综 合考虑业务人员的业务需求、维护人员的维护经验、 法律法规的规定要求、数据增长的定量分析和项目实 施的软硬件成本等,要在数据生命周期各阶段明确数 据管理的内在需求,实施有效的数据管理方案。

  2. 计算业务系统数据管理驱动力

  (1)预测系统数据生命周期

  根据数据生命周期管理模型,预测分析相关业务系统数据访问频度、迁移情况,确定数据在线度γ 。

  (2)确定业务活动类别

  商业银行业务系统按业务的类别、响应时间要求、 重要性程度,可以分为核心类、核算类、信息类、办 公类 4 个类别,如表 1 所示,其中度量指业务因子参 数 s,取行业经验值。

  (3)确定业务系统数据价值

  不同业务系统包含数据种类各不相同,具有不同 的价值和安全性需求。按照数据属性,可将数据划分 为以下几类,如表 2 所示。业务数据的价值属性因子 v 按最高类别确定,取行业经验值。

  (4)分析制度管理需求

  根据行业规范(不同业务对数据保存期限要求不 同)确定存储及备份要求,有些重要数据即使已处于 归档状态,仍需较高的资源配置来确保可用性。

  (5)确定数据管理驱动力

  根据模型分析,确定数据管理驱动力 DMDP 为 f (s,v, r,γ ),如商业银行核心系统属于核心类,有较 高的时效性和业务连续性要求,客户账户数据属于敏 感信息,除销户外,数据在线度为 1,该系统具有最 高数据管理驱动力,值为 1。此外核心系统中包括了 不同的数据类别,应分别计算各分类数据管理驱动 力,为精细化数据管理提供依据,如业务活动数据, 随着时间增加,该类历史数据访问频度降低、业务响 应时间要求较低,可参照分类数据管理驱动力从系统 中分离出来进行分表或分库处理。

  3. 数据生命周期管理方案

  数据生命周期管理方案一般包括数据存储方案、 数据迁移策略、数据访问策略等。 数据存储方案中应至少明确数据存储期限、数据 存储容量、数据存储介质要求。数据存储策略为分层 保存策略。

  ①新生成的数据和使用频率较高的数据(数据在线度较高数据)应在线存储,且使用高端的存储设备, 以保障系统的性能;

  ②对于生成时间较久且访问频率较低的数据则应将其迁移到成本相对较低的中高端存储设备中;

  ③对于使用较少但仍有保存价值的数据则应将其迁移到成本较低的中低端存储设备中。

  在确定数据存储策略之后,还需明确数据的迁移 策略:明确需要迁移的数据、迁移的目标位置、迁移频率、迁移时间点以及迁移方式(增量或全量)。数 据迁移应在不影响系统正常运行的前提下进行,迁移 前需进行可行性认证和演练,迁移后的数据应支持反 向迁移至上一阶段。数据迁移应保障数据的完整性、 可用性和一致性,整个数据迁移过程的操作应被记录 并可查询。

  数据迁移完成以后,数据访问方式应明确对在线、 近线和归档阶段数据访问的技术实现方式,一般情况 下,业务系统应为用户提供对在线和近线阶段数据的透明访问。

  4. 优化调整

  随着业务的发展,系统的业务数据类型和业务规 范不断变化。因此,一个完备的数据生命周期管理方 案,还必须包括对系统的优化调整,即根据业务系统 实际运行情况、新的业务类型和规范、技术进步等调 整原有的存储迁移策略和访问方式,以满足业务系统 发展及新的业务规范需求(如图 2 所示)。在商业银 行核心业务系统中存储的客户相关交易数据随着时 间的迁移,客户可能不再要求或很少要求获取较早的 历史交易记录,但此类数据有较高的价值以及保密和 监管要求,对此类数据,各阶段生命周期管理方案要 进行优化调整。FCC

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2014年6月目录
张颖:大数据分析挖掘服务体系建设的实践..
袁凡:互联网金融时代商业银行大数据战略..
郑承满:商业银行大数据生态系统构建探讨..
吴永飞:商业银行数据生命周期管理探讨
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多