设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2020年9月
基于联邦学习的数据安全在银行领域的探索

  

  广州银行金融科技部 郑立志

  未来,随着联邦学习技术的不断发展成熟,其将显现出较高的应用价值。银行业应重视联邦学习的发展形式和真实应用,综合研判联邦学习的发展成熟度,为企业的数字化转型提供新动力。我们可以从战略、技术、人员等方面做好积极准备,拥抱新技术,以适应新的业务数据全流程运营模式,不断革新和增强自身的数字化核心竞争力。

  当前,随着生活科技化、数字化程度越来越高,公众在吃、穿、住、行、用等各方面产生了大量隐私数据,这些全方位的数据给人工智能、区块链、云计算、大数据等新兴技术的创新应用提供了肥沃土壤。与此同时,如何利用新兴技术安全高效地挖掘用户数据并创造商业价值,也越来越成为银行等金融机构关注的重点。

  在鼓励商业机构合理运营数据的同时,国内外政府不断加强对数据安全的监管。2018年,欧盟正式颁布并施行了《通用数据保护条例》,明确强调所有与个人相关的信息都是个人数据,对数据的使用行为必须要有用户的明确授权。在国内,2020年,全国人大发布的《中华人民共和国数据安全法(草案)》中明确要求加强数据安全保护。这些条例和法规对于银行等金融机构传统的数据收集、处理、应用、存储的全流程数据运营模式提出了更高更严格的要求。

  一、数据安全应用存在的问题和解决方案

  随着金融科技的快速发展,如何在安全可控的情况下将业务数据化、数据资产化,发挥数据的最大价值,成为当下银行等金融机构迫切需要思考的问题。目前,业内存在的数据孤岛、数据泄密等现象表明数据安全问题日趋严峻,包括广州银行在内的多家金融机构正积极探索相应的解决方案,助力银行数字化转型。

  1.存在的问题

  数据孤岛:公众在吃、穿、住、行、用等方面产生的流量数据就像一座宝藏,静等银行等金融机构深入挖掘。而银行业由于其特殊的从业地位,受限于安全保障、监管合规、竞争关系、审批流程等因素,不能直接、便利地接触到外部原始数据,只能依赖第三方脱敏后的数据或者数据查询接口。此外,本地各个部门间数据共享不及时,导致特定时段内只能基于部门自有数据进行运营。种种限制导致银行业普遍存在着不同程度的“数据孤岛”现象。

  数据泄密:近年来,银行业不时有用户隐私数据被泄露的事件发生,例如,2020年某银行违规泄露贷款用户财产信息,2020年某银行违规泄露用户交易流水等,这些客户隐私数据被泄露的事件,极大地刺激了公众的神经,也引起了监管部门的关注。在当前既要深入挖掘数据价值又要保护数据安全的时代背景下,不少银行和科技公司正在尝试研发、探索运用新兴技术来满足当前对数据利用和保护的需求。

 2.几种解决方案

  科技公司和银行业通过不断探索,形成了以下几种解决“数据孤岛”问题和加强保护数据的解决方案。

  一是云计算加密。云计算加密技术以数据为中心,配合同态加密算法为底层技术的全流程数据云计算加密保护方案,旨在直面新时代大数据安全的三大挑战:合规要求、隐私威胁、量子计算。其设想是通过数据审计、隐私保护、威胁抵御、量子加密,来综合满足和解决数据保护和使用中的规范和威胁。

  二是联邦学习。联邦学习技术是一种加密的分布式机器学习技术,各个参与方可在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。在具体的联邦学习过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,在源数据不出本地的情况下就能进行数据联合训练,建立共享的机器学习模型,有效地提升数据的挖掘使用和保护水平。

 3.几种解决方案的综合分析

  就当前银行等金融机构的数据运营现状而言,更多的是需要打通行内存量数据和外界数据的联通渠道,并加以综合应用,以更好地服务于理财推荐、风控审批、反洗钱监管等银行业务,再在此基础上加强数据保护的措施。因此,就当前几种解决方案来看,云计算加密技术需要上传数据到云端,这一过程难以被监管和控制。而联邦学习的核心优势“联合建模”和“数据不出本地”刚好契合并抓住了银行当前对数据运营的核心需求和痛点。

  总结来看,联邦学习具有以下优点:

  一是数据隔离,数据不会泄露到企业外部,满足用户隐私保护和数据安全的需求;

  二是联合建模,正常情况下,多方联合建模的效果较割裂的独立建模效果更好;

  三是参与者独立性且地位均等,各方互不接触原始数据,只和联合模型进行加密数据交互;各个参与者根据其贡献给予奖励,努力实现公平。

 二、联邦学习的实践

  1.联邦学习落地的整体流程

  广州银行运营数据的一般流程为:首先是获取数据,对数据进行分析和特征工程,再结合数据特征和业务需求,抽象后进行建模;其次是利用数据对模型进行训练、验证和测试;最后是投产上线应用。联邦学习重点改造了其中建模的步骤。联邦学习的建模流程如图1所示。

  从图1可知,企业的原始数据是无需交互的,而上传到联合模型的数据都是原始数据经过本地模型训练完后的模型权值参数,联合模型反馈回企业的数据也是经过专用数据链路的,整个数据流转的过程中避免了数据泄露的可能性。

  2.联邦学习的分类

  考虑多个联邦学习参与方,每一方各自持有数据集,内含用户和用户特征两个维度数据。同时数据集会关联到标签。对应于不同的业务,标签指的是用户的信用度、购买意愿、风险程度等。根据具体数据分布情况,可能会存在多方数据集用户、用户特征不完全相同的情况。因此将联邦学习细分为三类(如图2所示):

  一类是横向联邦学习。横向联邦学习针对的是多方数据集的用户特征维度重叠部分大,但具体用户维度重叠部分小的情况。如广州银行和其他城商行,客户群体不同、交集小,但是城商行的业务是相似的,即用户特征是相同的。那么,建模过程中就按照横向(即用户维度)切分,再取出双方用户特征相同而用户不完全相同的那部分数据进行加密聚合建模训练。

  一类是纵向联邦学习。纵向联邦学习针对的是多方数据集的用户特征维度重叠部分小,但用户维度重叠部分大的情况。如广州银行和本地区的电商公司,二者客户群体可能有大部分重叠,但银行记录的是用户的收支、信用评级特征数据,而电商则拥有用户的浏览、购买特征数据,二者用户特征维度交集较少。那么建模过程中就按照纵向(即用户特征维度)切分,再取出双方用户相同而特征维度不完全相同的那部分数据进行加密聚合建模训练。

  一类是迁移联邦学习。迁移联邦学习针对的是多方数据集的用户特征维度和用户维度重叠部分都很小的情况。如广州银行和国外电商公司,由于地域限制等因素,双方的用户群体交集小。同时由于类型不同,双方的用户特征数据交集也小。因此实际计算过程中就引入迁移联邦学习,来解决这种单边数据规模小和标签样本少的问题。

  3.联邦学习的应用场景

  联邦学习的优点契合了当前银行数据挖掘和保护的需求,因此有不少银行在跟进并且尝试应用这一新兴技术。

  一是“联邦学习+信用卡智能经营”。银行与科技公司合作,应用联邦学习助力银行的信用卡信息智能化管理。在协同合作过程中,银行借助联邦学习数据隔离特性,使核心用户隐私数据不出银行本地,有效地防止隐私数据的泄露,再借助联邦学习的多方建模优势,将行内数据与外部数据进行联合建模,对信用卡用户的评分更为细致精准,减少了信用卡逾期还款的不良率,有效地提升了对信用卡用户的风险管理水平。

  二是“联邦学习+跨行反洗钱监管”。银行针对传统反洗钱系统存在的数据单一、过程繁琐、人工干预多等问题,探索与外部研究机构、同业银行,共同利用联邦学习进行反洗钱监管。针对单一银行反洗钱系统中基于规则的模型存在的数据量少、覆盖范围不足等问题,使用联邦学习中的横向联邦学习逻辑回归模型,可以让参与方的多个银行各自提供相同特征维度的模型数据,通过联邦学习模型的组合,跨行共同进行反洗钱监管。在应用后加速了银行反洗钱监管业务流程,减少了人工判断工作量和难度,有效地提升反洗钱系统的识别准确率。

  三、广州银行对联邦学习的应用探索

  近年来,国家先后出台了《粤港澳大湾区发展规划纲要》《关于金融支持粤港澳大湾区建设的意见》等政策,广州银行依托区位优势,着力发展金融科技。同时随着联邦学习技术的日趋成熟,我们正积极研究探索设想联邦学习在解决“数据孤岛”问题、保护数据方面的现实应用场景。

  一是探索“联邦学习+理财推荐”的应用。广州银行针对传统银行业在理财产品营销的推荐场景中普遍存在第一方数据稀少、需要快速冷启动、数据安全要求高、用户兴趣随时变迁的问题,探索利用联邦学习技术来进行理财产品的联邦推荐,利用联邦推荐技术的数据不出本地、联合多方建模等优点,打通行内存量数据与外部多方数据源的关联渠道。首先在行内做好数据治理的工作,通过体系化框架的规划设计,梳理7个主题共1224项基础类数据,再通过企业级数据仓库平台对数据进行加工整合,以此在本地训练推荐模型,再将模型权值参数输送到外部,和其他多方的模型参数进行一次联合建模学习。得到的联合模型反馈结果,一方面注入到现有的业务执行逻辑中,结合数据埋点综合提供业务服务;另一方面也作为新的数据资产,导入到我行已搭建的阿尔法统一数据分析平台,持续为全行业务服务。预期该联合应用能在理财业务的交叉营销推荐场景中发挥作用,提高理财推荐的转化率和获客率。

  二是探索“联邦学习+小微企业贷款风险管理”的应用。目前,大多数银行都将白名单机制用于小微企业贷款的风险管理,而白名单是通过筛选规则和风险模型来实现的,但以上两种工具都依赖于对小微企业及其控制人相关数据的了解,而对于单一银行而言,所能获取的数据较为有限。因此,广州银行针对行内存量数据不够丰富多源的情况,基于打造的大数据风控平台,积极探索使用联邦学习,借助其多方建模优势,实现行内存量数据与外部征信报告、税收、财务报告、企业知识图谱等数据的联通,与其他沉淀了中小微企业交易数据的电商公司、发票公司合作,共同针对小微企业贷款的贷款进行联合风控建模。广州银行先基于已有的风险量化模块和自优化的机器学习模型,训练基于存量数据的贷款评测模型,再将模型权值参数送到联邦学习联合建模端服务器,与外部多源模型权值参数训练,最后等待服务器回馈风控模型判断结果,再结合行内的评分类、授信决策、量化评分、贷前预报贷中预警贷后反馈等一系列参数,综合完成中小微企业贷款风险管理工作。在这一过程中,数据始终不出本地就能进行有效的保护,预期纵向联邦建模的AUC率能较原行内风控模型有所提升,降低不良贷款率。

  四、联邦学习面临的挑战

  结合当前银行案例,以及广州银行对联邦学习的探索实践,我们认为联邦学习技术在落地推广环节还面临一些挑战。

  一是技术方面。联邦学习的底层核心技术是同态加密算法、差分隐私算法、安全多方技术的协同配合,这些技术还处在研究发展的阶段,导致当前的联邦学习综合表现还不尽如人意。由于金融行业对安全要求极高,因此联邦学习还需要进一步成熟发展。此外,由于联邦学习涉及多方的数据上传、计算、下发等开销,因此在面对较多的参与方时,时间开销较大,需要进一步优化联邦学习的数据计算、交换技术。

  二是公平和效率方面。联邦学习在计算过程中,涉及多方交换模型数据,在这个过程中,势必会存在各方贡献度不足的情况,且每一方对于联合建模的数据回馈速度和持续计算能力要求不尽相同,这对于各方的公平和效率都是一个不小的挑战,需要给出相应的奖励机制和规范要求。

  五、应对策略及展望

  未来,随着联邦学习技术的不断发展成熟,其将显现出较高的应用价值。银行业应重视联邦学习的发展形式和真实应用,综合研判联邦学习的发展成熟度,为企业的数字化转型提供新动力。我们可以从战略、技术、人员等方面做好积极准备,拥抱新技术,以适应新的业务数据全流程运营模式,不断革新和增强自身的数字化核心竞争力。

  一是要做好顶层设计综合研判。监管机构和银行可以不断加强对联邦学习技术发展的跟踪研判,根据技术发展的成熟度,预先做好联邦学习技术在金融行业的顶层设计,让联邦学习技术落地应用有章可循,让科技赋能业务革新发展有据可依。商业银行也可以主动加强与研发联邦学习技术的科技公司、高校的沟通,共同探讨交流相关技术满足具体应用场景的可行性。银行同业之间可以开展合作,探索尝试让联邦学习技术进入银行业务生态,解决长久以来存在的“数据孤岛”问题,更好地保护客户隐私数据,实现金融数据安全使用和防控的目的。

  二要锻炼复合型人才队伍。要想使联邦学习进入银行金融机构的业务生态中,不仅需要专业科技公司的研发,也需要具有银行金融机构业务知识背景的人员参与其中。银行金融机构需重视金融数据安全文化的建设,并做好联邦学习人才的培养工作,加大和科技公司的合作,尝试建立联合研究中心试点,从金融科技创新、应用的角度提升金融从业人员的综合能力及专业技能,打造出一支全面复合型的联邦学习实践人才队伍。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2020年第9期目录
数据要素市场化环境下的数据安全思考
金融数据安全保护实践及思考
夯实数据管理基础,增强数据安全防控——..
基于联邦学习的数据安全在银行领域的探索..
关于后疫情时代的金融数据安全防控的思考..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多