据媒体报道,近期,Facebook、微软等巨头已开始着手打击 deepfake 滥用,斥资 1000 多万美元举办 deepfake 检测挑战赛。谷歌也宣布了开源大型 deepfake 视频数据集,以支持社区对 deepfake 检测的研究。
今年6 月,一段利用DeepFake机器学习算法生成的Facebook 创始人马克·扎克伯格的讲话视频引起轩然大波。
人们惊讶的不是视频内容本身,而是DeepFake 机器学习算法的进步之迅速。由AI生成的视频仿真程度越来越高,导致辨别这些内容真伪越来越困难。如果这类技术被大规模滥用,很可能会带来不可估量的负面影响。
从技术角度看,引发关注的DeepFake 机器学习算法由卷积神经网络(ConvolutionalNeural Network, CNN)催生而来。后者是深度学习(Deep Learning)技术中,代表性的神经网络结构。目前,CNN 已经在图像处理领域取得了很大成功。全球,图像识别数据库ImageNet 数据集上,许多成功的模型都是基于CNN。
据华尔街日报报道,今年3 月英国一家能源公司CEO 被犯罪分子通过电话骗取了22 万欧元。负责这起诈骗案理赔的保险公司调查后认为,犯罪分子利用了DeepFake 类软件工具,通过模仿这位CEO 的德国老板的特殊口音获取其信任,并最终得逞。
可见,DeepFake 并非只是换脸,其含义已经泛化为利用AI 生成虚假音频、视频、图像等内容的行为。DeepFake 也并不只代表某个特定算法模型或软件工具,而是一类算法的应用集合。
在对数据和风险高度敏感的金融行业,DeepFake 以假乱真的效果很可能会影响到银行、金融科技公司等机构对使用者开展KYC(了解你的客户)比如远程客户认证等关键环节。
金融业是对数据高度敏感的行业。在以CNN 为代表的深度学习大量运用之前,金融行业对数据的处理很大程度上是根据已知经验和规律做出判断。
比如,卡车司机群体的健康或意外风险较高,保险公司在对这部分投保客户测算建模时一般会提高保费价格。再比如,公务员群体的工作较为稳定,还款意愿和能力相对更容易判定。这两个例子中共同的数据变量是职业,不同职业对金融业务风险会产生显著影响。
但已知经验和规律毕竟有限,以此为基础的一些强假设大多数情况下自变量(比如:年龄、职业)和因变量(风险)满足线性关系。而在实际的金融业务开展过程中,采集来的数据之间常常存在非线性关联。
在这种情况下,数据分析人员可以通过变量衍生和变换技术来弥补线性模型表达能力的不足。例如,用户在央行征信,的征信报告中会留下银行等金融机构的查询记录,单条查询记录可能跟用户的资质没有太大关联,但是,如果我们统计用户在一定期限内的被查询次数,这就是用户对于贷款饥渴程度的一个很好的度量,也跟用户资质有较大的关系。
在这个例子中,“用户的征信报告被贷款机构查询的记录”到“用户一定期限内的被查询次数”就是一次非线性的变量衍生过程。在变量衍生后,数据分析人员以标准的变量评估方法为基础,结合KYC 的经验判断衍生和变换后的变量是否是一个“好”的变量。数据分析人员的经验、能力甚至灵感决定了能否找到良好的非线性变换,以对用户的资质做更准确的评价。
但受限于数据分析人员的精力和能力限制,要找到更理想的衍生变量进而发现其中的逻辑关系并不容易。利用CNN 构造并训练模型,通过调整参数将模型性能调整到理想状态,可以解决这个问题。
以金融科技企业人人贷的业务流程为例,人人贷将采集到的用户数据可视化为一张“图片”,图片中的每一个像素定义为每一个变量的取值。通过批量分析用户“图片”,可以发现高风险用户在图片的某些区域上有持续的共同或相似之处。与此同时,也会发现一些图片区域的取值在高风险和低风险的用户之间并无差异,即在风险识别的目标下无效的变量区域。
得益于数据降维,CNN 模型能够显著减少需要处理的数据量级,将算力要求控制在可接受范围内。更重要的是,基于CNN 的风险识别模型可以昼夜不停地工作,所处理的数据量级和复杂程度也远远超过数据分析人员采用的传统统计分析方法或传统机器学习。
经过多年业务实践,人人贷认为在信贷风险管理领域,存在成功应用CNN 的前提条件。值得注意的是,人人贷并不是运用CNN 来完成信贷风险决策,而是将CNN 用于传统信用评估流程中的“变量衍生”环节,也就是把CNN 网络的输出作为衍生变量的重要备选。
在风险识别之外,人人贷作为国内,的金融科技企业,较早采用了第三方服务商的人脸识别解决方案,能够准确、高效地完成客户身份验证。其中的人脸识别算法也大量使用了CNN 相关技术。就目前而言,第三方人脸识别解决方案提供商的算法已经相当成熟,可以有效防御2D 照片、3D 人脸模型攻击,反身份欺骗成功率可达99.5%。
基于CNN相关技术的应用,人人贷得以将金融科技有效渗入业务全流程,极大的提高了风控流程的效率,进而将服务全流程智能化、系统化。