中国IDC圈7月20日报道,7月20日,“2017中国行业云计算峰会—金融云”(C9峰会)在北京国贸大酒店(国贸三期)隆重召开。本次大会由中国信息通信研究院指导,云计算发展与政策论坛、数据中心联盟、云计算开源产业联盟主办,云计算发展与政策论坛用户委员会承办、CloudBest、中国IDC圈、网贷之家协办,并受到诸多媒体的大力支持。
2017中国行业云计算峰会—金融云”作为国内金融与云计算领域具影响力的大会,引来现场人员爆满,大会全面覆盖云计算、金融、人工智能、区块链、大数据等多个领域。
会上,PPmoney万惠集团大数据算法总监黄文坚出席本次大会并发表主题为《人工智能在fintech的应用》的演讲。
PPmoney万惠集团大数据算法总监 黄文坚
以下是演讲实录:
大家好,今天我给大家讲人工智能,尤其深度学习和TensorFlow在fintech中的应用。我们公司叫PPmoney,是国内最早一批将人工智能应用在金融科技领域的企业,现在非常流行现金贷的产品业务,国内可能有上千家,大家竞争的点比较趋同,最核心的竞争力还在风控这块。现在使用传统的人工审核或者专家做一些专家规则的方式已经不行了,目前业内做得比较好的几家,像量化派都是使用人工智能的风控模型来做的,非常适合在风控上有一个发展。PPmoney的理财平台每年可以募集资金300亿左右,现金贷的产品、PPmoney理财、挖牛等。
为什么要在金融科技中使用深度学习?金融数据中很多是交易日志或者银行流水、股票K线数据,这种数据叫时间序列数据,跟传统的做机器学习问题的静态信息的数据不太一样,这种时间序列的数据特别适合使用深度学习,尤其是卷积神经网络、循环神经网络来处理。我们传统做的一些专家规则和行业分析,对这么大量的数据找到规律这是不容易实现、很难做到的。金融数据中很多非结构化的数据,比如我们有很多文本的数据,财经新闻中对某公司的点评,不管对银行放贷还是对个人征信、预测股票涨跌都非常有用。使用传统方法是很难做这个问题的,人工智能深度学习可以很好的把这块数据利用起来。LSTM和Word2Vec最适合处理文本数据,后面会简单说一下它的应用。
金融数据很多很复杂的业务逻辑,比如我们在银行贷款的业务中,怎么评价贷款的客户是不是有比较强的偿还能力,有没有欺诈的风险,需要业内专家来分析的话非常困难,而且要总结出很多经验规律,最后效果也不一定很准。很抽象的逻辑概念和经验对使用人工智能来说是不需要的,我们都是从数据中进行学习,所以你只要给我足够多的数据我们可以很大程度的减少对业务专家的需求。第四,大数据的应用效率比较高,当前这个环境下数据的积累量越来越多,我们最近两年积累了之前所有数据80%的量,是最近两年产生的,后面的数字会越来越多。现在是任何一个行为操作或者记录都会被数据记录下来的时代,对大量数据的挖掘和应用是未来一个势。深度学习这个模型对数据的利用率很高,比如传统机器学习的算法,像国际回归等传统金融中使用的模型,当你有几百万条样本的时候模型拟合能力就达到上线了,提供更多的样本并不会产生很好的表现,但对深度学习来说从几百万样本一直提升到几亿、几十亿的样本量都有持续的提升过程。对银行、金融机构、保险、券商、理财平台来说,大量的数据就是它至关重要的财富,把这些利用起来就能产生很高的价值。
目前人工智能好的实践是谷歌在两年前开源的TensorFlow,阿尔法狗底层的平台是TensorFlow,目前美国大量公司使用的框架是TensorFlow,它是目前排名第一的框架,同时有谷歌200多人的研发团队,产品质量和代码质量都非常高,支持的功能极其丰富,是目前好的选择。我本人也是TensorFlow的开发者之一,今年初出版了一本书叫《TensorFlow实战》,出版之后一个月内是计算机类数据销量榜第一名,可见人工智能和TensorFlow是目前业界非常火的领域。
深度学习和TensorFlow怎么应用到金融的具体问题中。先看一下金融预测的模型,我们可以使用人工智能来解决信贷审批或者风控的问题。在传统的金融问题中,如果放贷金额特别大,几千万以上、几万或者几千的量,很难让金融专家一条一条审核,因为量实在太多了,目前一些小的现金贷一天会有几千几万的量,他们做的效果也不如机器自动化的水平。人工经验没有一个数据的佐证的支持很难判断每条规则的有效性,同时多条规则之间怎么组合才能大化效果。使用机器学习,全自动,节约大量的人工成本,不再需要普通的信审员节约几千几百个岗位,准确率比较高,我们也做了测试,相比使用人工来做准确率的提升幅度很大,后面会有一些具体的数字。
金融这个行业变化比较快,不同时间周期内的规律非常不明显,每当有新的现象新的规律发生的时候,人工可能很难跟上,但机器通过最新的样本很快识别到这些形态和样式进行自适应。我们也不需要像人工专家规则去构思很多条件,如果我的客户有夜间通话或者最近流水额比较低,我认为他偿还能力不够,可以避免人工构思的情况。看一个具体的例子,五大行之一总行有一个POS贷的业务,针对一个商户的POS机的流水作为授信额度的主要考核依据。这个贷款业务刚上线的时候没有经过任何风控模型,原始不良率4%,银行不能接受,银行要求2%左右,请了专家筛选把不良率降到2%,但通过的审核率只有26%,有将近3/4的客户被筛掉了,如果使用深度学习的方法的话,我们可以做到将不良率降到2%的同时,审核通过率还有77%,我们筛掉的20%多的客户里最坏的这批客户,筛掉他们之后不良率的下降非常明显,精准的将不良客户识别出来。
审批率通过了,放款业务量增大3倍,这个业务的营收额和收益都相应的增大3倍。对于这种贷款问题,大的核心就是要积累足够的样本量,需要足够多的字段,银行可以通过银联拿到商户的交易流水信息和运营商授权的通话信息、过往的银行的流水、贷款的记录,所有这些特征会有几百个,我们使用深度学习的算法将它衍生到几千甚至几万的特征,自动让模型算法做化,识别哪些条件和哪些条件组合的时候会有比较明显的逾期现象,通过这样的算法自动能实现很好的预测精度。
我们算法中心也会做AB Test,当有新的数据过来我们训练新的模型的时候,新的特征过来我们训练新的模型的时候,我们可以对比确定新改进的方法有没有效果,不像传统的规则筛选之后并不知道哪条规则比较有效,这些规则哪些是正向的,哪些是负向的,这些都搞不清楚,这样问题就很大。使用自动化的人工智能的模型来解决这个问题效果就非常好。
另外一个例子是保险复购的预测,很多保险公司比如中国人保、泰康人寿,他们对复购客户的依赖是很大的,平常会有3%的客户进行复购,这些客户是推广运营商成本比较低的,相对来说比较优质。这里的复购一般指他给自己购买保险之后给他的亲属或者关系很紧密的人再购买第二份保险,我们这边做的模型是预测哪些现有客户他在第二年会进行一个复购。最后做到的效果,预测出来的名单里有50%的人都进行了复购,相对原始只有3%的复购率,提升是非常明显的。使用的信息,用户的静态信息,比如收入、年龄、职业、家庭住址、险种信息。还有时间序列的数据,像交易的行为、保全行为、会员行为等等。关系的信息,他跟其他亲戚朋友是怎样一个关联,他有没有其他的亲戚有购买保险的行为,有没有团单的行为。
这几部分不同的数据我们会使用不同的方法进行处理,比如静态信息和关系信息,这些我们会使用全链接的网络进行处理,时间序列的信息我们会使用循环神经网络进行处理。复购的主要预测目标是个人和家族在下一个时间节点复购概率,目标是定向,向有高价值的潜在客户营销,比如我们给出来的名单中可能有一半都会进行复购的预测,如果定点向这些人营销能取得非常好的效果,可以大量节约业务人员的工作时间,提高效率。
我们有不同种类的信息,普通静态的信息我们使用全连接的方式连接,时间序列我们采用单独的方式连接,把这两个信息连接在一起做分类和回归的预测,输出客户下一个时间节点复购概率的高低。
基金公司,我们在加时基金那边有一个项目,加时基金是管理3千亿资产规模的基金公司,其中有很多大客户,公募主要是收取管理费,对他管理的资产规模非常敏感,他想提前知道客户的申购和赎回的行为并采取一些应对措施。如果有上亿资产规模的大客户要赎回的话,对他收益会有一个非常大的影响。我们的大客户做了这样一个预测,分为两种,一种是货币基金,申购和赎回的现象比较频繁,对这种问题我们能做到基准的准确率的3-4倍的效率。比如他每个季度会有10%的人产生赎回的行为,我们给出来的名单预测出来有40%的人会产生赎回。另外部分是比较关键的普通基金非货币基金,股票型、债券型持有期限比较长,一旦赎回就不会再次回到这里,这样管理费的赎回就会有很大的问题。对这种基金我们可以做到20-30倍的渔村准确率。基金在每个季度会有3-5%的赎回率,预测出来的结果会到30-40%。这些人群就是高危人群,其中大的客户需要重点关注,我们将这些客户的意图识别出来,提前给他一些优惠或者工作,可以尽量避免这部分资金的流失。我们使用到的数据量比较多,历史申购赎回的交易记录、客户的信息、对基金APP的使用,最近购买基金的表现,会提取出5000多个特征,静态信息使用全连接的处理,时间序列信息使用循环神经网络的处理,最后取得了非常良好的效果。
通过TensorFlow实现全连接的神经网络,7行代码,在金融的问题中对数值型和种类型清楚的数据使用全连接的神经网络。舆情分析在很多地方都会使用到,尤其一些大型的金融机构,银行给大型的客户贷款之前,客户可能有几千万或者几亿的授信额度,要对企业综合考量,看最近有没有负面新闻或者法院判决不力的信息,如果从网上人工搜集信息是不太全面,不太准确的,同时速度很慢。如果将它做成自动化的效果,我们会从全网抓取所有的跟这些公司相关的新闻,一个公司会出来几千甚至上万条的新闻,我们再对中间每一条新闻做一个正面负面中性的舆情分类,有了这个分类之后我们可以对这个公司整体的发展状况做一个评估,如果它的负面新闻的比例过高超过15%或者是多少,这个风险就比较大。如果他负面新闻很少正面新闻很多的话,那是比较放心的企业。
中文分词之后做Word2Vec、RNN(LSTM、GRU)、舆情分类。我们有很多券商的分析员对公司的研究报告,之前要读大量的关于公司的新闻,除了做舆情分析,估计公司整体的舆情现象,同时还要对比较关键的新闻进行阅读,怎么一开始就把几万字的报告浓缩成几段话的文章,让分析员判断文章的主旨思想,这边有一个概要生成的算法。概要生成的算法在传统实践中有抽取的方式,它会对很长的文章抽取其中最重要的几个句子,5-10句,在文章中做了一个page 1,类似谷歌搜索,再将这十句话进行总结,都是原文中出现的一模一样的句子只是对重要性进行提取。
使用深度学习完全抽象生成的方法,它会尝试理解整篇文章的含义,将每段每个大篇章转换成1-2句的总结,这个算法主要是基于谷歌的开源的算法,基于注意力模型的抽象语句的总结。这个算法在前端有一个encoder后端有一个decoder,encoder做的是语言模型,将很长的文章转化成很短的文章,训练用到的语料是网上大量新闻以及人工手写的摘要或者标题,使用这些数据来看人是怎么总结长篇文章变成几句话的短的概要,通过学习转化的过程构建了一个转换的语言模型,后端的decoder会尝试解析原文,将原文使用语言模型转化成简短的总结。概要生成对英文的文章来说已经能做到很不错的效果,中文文章中目前效果可以令人满意,可以再逐步提高一些。
研究报告的自动生成,前面我们提到了我们可以分析大量的文本舆情,同时还可以对某一些重要新闻做一个总结性的概要,我们有没有可能直接把所有关于这个公司的新闻汇总到自动生成报告,其实目前是有的,而且在美国欧洲已经有好几家公司提供自动报告生成的服务,很多比较初级的信息整理或搜集的业务就不再需要入门级的分析员研究员,人类可以得到一定程度的解放,可以做一些目前还做不了的更抽象的分析任务,对公司战略或者其他层面的考量分析。这块也会使用到很多人工智能的算法,它首先要有自然语言理解,这是对所有公司相关新闻或者报告内容的抽取、语义的解析,同时还需要自然语言生成的算法。这几个算法在TensorFlow中都有相应的实现。目前自动报告的生成大部分是基于模板,会有一个特定的格式,将网上爬取到的信息使用人工智能的方法分析之后,按模板填充起来最后生成这样一个报告。这几个例子是在TensorFlow中实现NLP常用的自然语言处理算法的例子,比较简单,虽然人工智能在其他领域的应用还有一点距离,但是在金融领域是第一个落地的,正好适合在金融有大量数据同时对结果非常敏感,比如在贷款业务中我的盈利空间只有3-4%,我的逾期坏账率降低1%那就很好,使用深度学习方法可以节约大量分析员的人力。
目前来看人工智能非常适合在金融科技中应用,已经在很多领域都发生了很重要的改变,前段时间高盛将600多名交易员全部换成了机器自动交易的算法,未来会有更多金融相关领域可以被算法以及模型自动化的替代,降低成本,提高工作的效率,比如对贷款逾期预测得更准。
今天我的演讲就到这里,谢谢大家。