韩世琪—北京大学软件工程硕士,资深互联网金融产品技术专家。曾作为创始成员加入专注大规模分布式存储及检索系统研发的云计算公司,就职于微软亚洲研究院DIT数据智能工具组,参与研发软件质量及用户行为分析平台。2014年加入爱投资,全面负责公司管理工作。作为国家互联网金融安全技术专家委员会第一批专家委员,韩世琪受专委会邀请就大数据风控进行了主题分享,以下是全部内容:
大家好,首先做个简单的自我介绍。我是韩世琪,来自一家经营发展5年的一线互联网金融平台——爱投资,现任为集团的,副总裁,主管爱投资板块。我是技术出身,本科和硕士都攻读计算机相关专业,毕业后先后在微软亚洲研究院、爱奇艺,以及宽带资本投资的云计算创业公司工作。关于大数据风控,这两年在研究机构、科技金融公司,以及在一些会议、论坛、媒体上已经被很热闹地从各个角度宣讲过多次。因此我今天不会去重复一些概念性的、宏观的理念,而仅仅是分享一些我们在实际工作中的思考和体会,仅供参考。以下的内容将会分为两个部分,首先讲一下我们对于风控的理解,从对风控问题的思考出发,引出第二部分大数据风控。
第一部分我们先谈谈对风控的理解
风控,在信贷领域,可以狭义地理解为对潜在风控的“控制”,,是判断借款主体的还款意愿和还款能力。在空间上尽可能尽调、收集各种有助于作出是否放贷以及放贷额度判断的数据,尽可能消除信息不对称;在时间上从贷前判断,贷中监控,贷后处置完成一个放贷闭环。从狭义的角度看,风控是一个不断做减法的过程。在很多传统金融机构,风控团队扮演是一个负责 “Say NO”的角色,与业务部门似乎是对立的。
从广义的角度理解风控,如果说金融的本质就是经营风险和不确定性的话,那么风控的目的就是在拥抱风险的基础上使得业务健康发展。对于一家互联网金融平台来说,如果业务发展的速度跟不上行业的速度,这恐怕是,的风险。最近,我刚好读到了一本书叫《爆裂》(whiplash),作者是麻省理工学院媒体实验室的主任伊藤穰一,在书里他列举了在未来快速发展的社会中生存的九大原则,其中有一条叫“风险优于安全”,他提到,没有什么是,安全的。他还举了深圳的例子,深圳在短短十年内在高端硬件生产领域发展为世界领头羊的地位,一个重要原因就是深圳的很多小企业愿意承担风险,风险和安全其实是辨证发展的关系。
在爱投资内部,我们一直在思考一个问题,我们为谁放贷以及放贷的目的是什么?我们认为从浅入深有这么几层目的:
1) 获得放贷收益,对于网贷平台来说,就是为出借人赚取安全的回报,平台收取服务费。
2) 连接客户,获得长期、可重复的放贷收益。
3) 与客户深度连接,延展更多维度的服务和合作,赚取更长远的成长性收益。
4) 与行业深度连接,通过对行业的了解反哺金融的展业能力和风控能力。
经过这几年的探索和发展,我们对于风险逐渐形成了一些不同的体会,用发展的眼光看待风险。决定风险的核心因素并不是风控流程、制度,也不是风控技术,而是客群。根据大数法则,客群最终决定了放贷的不良率。因此从这个角度看,风控实际上是一个圈定并识别客户的过程,是一个有关获客手段、质量和效率的问题。
第二部分大数据风控
对于预测未来能力的渴望,人类自古有之。早在农耕时代,人们就通过积累上百年的天体观测数据,来预测气候的变化。古希腊时期的托勒密,建立了一套非常精密的模型来预测天体运行轨迹的变化。我们不得不佩服古人的聪明,托勒密设计了一套由40多个大小圆镶嵌而成的极其复杂的模型,,地拟合了此前积累了上百年的观测数据,并用这套模型来进行预测。这套模型的精度非常高,在之后的一千多年才仅仅偏差了10天。
现在回过头来看,为什么我们在最近5到10年才开始提“大数据”这个概念?我们为什么不说之前的对于数据的应用是所谓的“大数据”,虽然从数据量来看此前的很多应用,数据量已经非常大了。我的理解是,我们现在所谓的“大数据”,一定要具备两个条件,第一,数据可以被计算机感知到,由机器智能代替人脑智能。之前的数据量虽大,但仍然是人脑在计算;第二,是这个世界上的数据被有效地连接起来了,信息孤岛被互联网打破,整个世界形成了一台虚拟的超级计算机。因为现在具备了这两个条件,所以我们才称之为“大数据”。
大数据以及基于大数据的机器智能,在现阶段来看,不论它有多聪明,都有一个明显的局限,都需要人来指导,都只能用来解决一个被人明确定义的,有明确边界、规则的问题。即使是当今最聪明的人工智能程序 AlphaGo Zero,它也只能在围棋棋盘里回答一个有关下一步落字选择的问题。所以毕加索在上个世纪曾经说过,“计算机是没有用的,它只会给出答案。”毕加索这句话说对了一半,其实只要问题定义得当,规则和边界划分明确,计算机就可以帮助人类解决一些非常复杂的问题,因此计算机是有用的,但是计算机的局限是,需要人的指引,这也是现阶段的事实。因此,我个人的理解,在现阶段,机器智能更像是“一双智慧的手”,还远没有达到“智慧的大脑”的程度。
我们聚焦到风控领域,让我们共同探讨一下,大数据以及机器智能会有哪些具体的作用。我们总结出了如下两点主要作用:
作用一、带来了持续的数据收集能力。数据收集能力的提升得益于近10年来“数据跟踪”技术的发展。近20年,互联网把世界上的计算机连接到了一起。近10年,移动互联网把人连接了起来。在未来的万物互联时代,将会有产生更多的传感器,将人们生活中的所有可计算单元都连接在一起。人们在网络中的一举一动都留下了痕迹,形成了“数据碎片”。掌握数据技术的政府、学术研究机构以及商业公司用各种像“吸尘器”一样的抓取技术,把数据碎片收集起来并加以利用。
在风控领域,数据收集的目标是获取用于判断借款人还款意愿和能力的尽可能多的数据和尽可能多的数据维度。而数据的样本数越多、维度越多、准确度越高、及时性和完备性越强,数据的价值就越大。我们常说的场景化金融,其实就是通过掌握一个场景来收集数据、判断风险以及定位目标客群。例如在爱投资平台上,有一类借款客户,他们是长期在某些垂直领域电商平台上做生意的中小企业经营者,由于电商平台上记录了他们的历史行为和交易数据,所以即使这些经营者没有大量的固定资产做抵押,我们也可以根据他们过往的经营数据作出授信的判断。可以说,让计算机感知并收集数据,从时间和空间的角度不断完善数据、还原关于借款主体的意愿和能力,是大数据风控的基础工作,是大数据风控系统的基石。在爱投资的大数据风控部门,有一支团队就是专门负责数据基础设施的建设,他们的主要工作就是从合作方、第三方数据公司以及互联网上持续收集各种异构的多维度的交叉型数据,将这些数据汇聚到平台的数据湖中等待进一步挖掘。例如对于企业来说,我们会比较关注反映其经营状况的财务、工商、诉讼、资质、运营、行业、资产等维度,以及体现企业核心人员状况的社交、出行、招聘、舆情等维度,共计超过上千种不同维度。让计算机不断收集、补充、完善这些海量维度的数据,持续迭代这个过程,夯实平台的大数据基石。
作用二、带来了针对特定场景的批量授信能力。上面我们说过,现阶段的机器智能适合解决一些确定的、复杂而重复性的任务。那么针对一类特定人群、特定数据维度的借款人的批量授信评分,刚好就是这样一类任务。说到评分,这里要先提一下在大数据应用中一个关键的认知转变。传统上,人们倾向于对结果作出因果解释,注重的是“归因”。而大数据思维恰恰是不追求原因,转而关注维度和结果之间的相关性,通过研究相关性来回答得出某个结果的概率是多少,注重的是“结果”,只要结果是可用的,就承认方法是有效的。为什么在大数据时代,有了更多的数据和更多的维度,反而不能给出因果结论了呢?因为事实上这个世界是复杂的,信息不对称是永远存在的,上帝视角是不存在的。因此所谓的因果结论也只是在人为的忽略掉一些信息,对高维度数据进行降维简化后,让结论看起来更容易让人理解而已。
这种降维的注重因果的模型在很多传统的金融信贷场景中被广泛应用,例如通过打分卡机制收集一些显性的数据指标,对借款申请者做出判断。这种方案的好处是简单、数据处理量较小、结论的可解释性强。实施一些相对简单的机器学习算法——如逻辑回归、随即森林等——即可对历史数据进行训练,调整优化参数后,可以训练出针对某一特定场景的机器学习打分模型。在另外一些场景下,我们可能有机会拿到非常多样的数据维度,有显性的、宏观的维度,也有一些隐性的、微观的维度,以及一些跨领域的交叉型的维度。在这种场景下,我们的算法团队也在尝试利用深度学习技术,用多层神经网络来提升数据分类的精准度。深度学习算法对计算能力的要求很高,近几年随着GPU的广泛应用才开始逐渐在一些科研机构中广泛尝试。通过深度学习算法,可以在保留尽可能多的高维信息的基础上,做出更准确的判断,换言之,深度学习使得机器智能变得更“聪明”。
我想,作为从业者,我们都要感谢我们所处的时代。现阶段摩尔定律仍然有效,单位价格的芯片计算能力,每隔18-24个月翻一倍。记得在10多年前我和导师在实验室里,为了运行一个N方复杂度的文本分类算法,百般周折。一开始是内存不够大,要进行反复的内外存交换,导致程序根本无法快速运行。后来我们调整了算法,内存问题终于解决了,但是CPU的计算速度又成了瓶颈。我们当时运行一个现在可能只需要几分钟的程序,要等几个小时,有时要在头,晚上启动程序,第二天醒来后查看运行结果,这个过程简直是苦不堪言。最近十年来,率先在大型互联网公司兴起的分布式计算技术,正是因为单机的计算能力到达了一定瓶颈后,无法在合理的成本下通过 Scale Up 的方式提升单体的计算能力,转而通过 Scale Out 的方式通过集群协作来提升整体计算能力。刚才说到的用于深度学习的 GPU 计算阵列就是一个 Scale Out 的例子。
,,关于大数据风控,我还是想强调一点,至少在现阶段,大数据以及机器智能仍然是“一双智慧的手”,真正决定要不要给一个借款主体放贷的,本质来讲,并不是算法和程序,而是设计算法的人。回到我们一开始所讲,广义地理解风控这件事情,由于最终影响放贷不良率风险的是人,因此风控的核心是人,是有关获客的精准度和效率的问题。在现阶段,大数据给予风控的帮助,是一个有效的推手,让机器智能在那些远胜于人脑的领域得到充分的放大和加速。但是,对于风险的把控是一个极其复杂的交叉领域,仍然需要由不同专业、不同研究方法的从业者共同探索和开拓,使得整个社会的金融效率得到进一步提升、金融风险得到合理控制。路还很长,但是我们有信心不断自我超越。
这次的分享就暂时告一段落, 感谢大家的聆听,再见!