刘志斌 微信技术架构部高级工程师
随着腾讯公司微粒贷产品的上线,大家耳熟能详的互联网金融、大数据征信等热词,也一脱以往雾里看花的神秘外裳,正式切入大众用户的日常生活。作为从最初就与webank共同进行技术开发与业务合作的团队成员,笔者将陆续推出一系列的文章,首先介绍互联网征信体系的背景、产业格局、核心技术及发展趋势,然后将着眼于腾讯(尤其是微信)社交大数据的应用技术阐析、开放性问题探讨、难点攻坚及创新。目的在于为大家揭开所谓大数据金融、社交征信的神秘面纱,促进大家的讨论交流和收集宝贵建议,也激发出我们更多的灵感与创新。
一、背景与产业格局
1.背景
2013年被称为互联网金融的元年,而征信体系作为金融的核心模块之一,具有基础而重要的地位。然而目前总体而言,征信体系的不健全,信用数据的碎片化,很大程度上影响了互联网金融的可持续发展,同时也是造成小微企业和个人融资难、融资成本高的主要原因之一。
从某种意义上说,互联网金融未来的增长速度、覆盖范围、融资形式很大程度上取决于中国人行征信数据的共享机制和民间征信机构、征信业务的发展程度。可以说,互联网征信服务是互联网金融贯通全脉的要穴。
2.征信体系:内涵及产业链
2.1 内涵
征信体系包括征信和信用评级。
征信,也称为“授信”,就是专业化的、独立的第三方机构为个人或企业建立信用档案,依法对企业、事业单位等组织的信用信息和个人的信用信息进行采集、整理、保存、加工,并向信息使用者提供的活动;所采集的信息通常服务于授信机构用于判断风险。它为专业化的授信机构提供了一个信用信息共享的平台。简而言之,它可以视作为“对公司或个人的信用验证工作”。
可见,征信分为企业征信和个人征信。企业征信主要是收集企业信用信息、生产企业信用产品;个人征信主要是收集个人信用信息、生产个人信用产品。
信用评级,是指独立的第三方信用评级中介机构对债务人如期足额偿还债务本息的能力和意愿进行评价,并用简单的评级符号表示其违约风险和损失的严重程度。信用评级的根本目的在于揭示受评对象违约风险的大小。
2.2 产业链
征信产业链较为简单清晰,主要为上游数据供应商、中游征信机构和下游征信使用方。
数据供应商主要包括银行、电商、水电煤供应商、电信运营商、教育部门、医疗部门、教育部门、公安部门、社保部门及其他部门(旅游、交通运输部门)等,几乎涉及人们生活的方方面面。
征信机构从数据供应商处获得数据通过一定的模型进行加工处理得到信用评级结果,主要分为个人征信机构、企业征信机构和金融评级机构,个人征信和企业征信可以由一个机构提供。
征信报告使用方主要有房地产商、汽车厂商、P2P平台、金融机构等,多数发生在个人购房和购车、个人小额信贷、企业信贷、债券买卖等场景。
图1. 征信产业链
3.业界现状与模式
3.1 国外现状
目前国外征信体系主要有四种模式:市场主导模式、政府主导模式、会员制模式、混合制模式。如表1所示。
3.1.1 市场主导模式
这种模式的代表是美国和英国。至21世纪初,个人征信领域的市场格局形成了相对稳定的三大巨头:Experian(益百利)、Equifax(艾克菲)和Transunion(全联);剩下的区域性征信公司要么与三巨头紧密合作,要么形成个性化利基市场。企业征信市场则始终是邓白氏一家独大。美国征信市场发展历程如图2所示,美国征信的监管体系如图3所示。
图2. 美国个人征信、企业征信市场的发展历程
图3. 美国征信业监管体系
从市场深度和广度来看,美国三大征信巨头收集几乎所有关于个人活动的信息,并已全面覆盖美国成年人口,市场规模巨大,其典型的市场运作模式如图4所示。
图4. 美国个人征信市场运作模式(以益佰利为例)
值得指出的是,美国征信业发达的重要原因之一是他们掌握了关键技术。处理征信数据的技术关键在于数据整合、数据挖掘和评级模型。
数据整合体现为将出现在多个数据源中个人信息甄别同一个人,并整合成完整的个体信息。
数据挖掘体现为发现对风险控制更有价值的特征变量,因为商业银行往往根据特征变量进行个性化加工,并结合信用评级报告最终形成风险决策;目前Equifax 发掘的特征变量约1000个,而国内银行风控所用特征变量一般仅200 个左右。
评级模型掌握在FICO(费埃哲)公司手中,三大征信公司在其模型基础之上,结合自身数据特点,开发个性化的FICO 评分模型。评分模型主要关注五类因素:信用偿还历史、信用账户数、使用信用年限、正在使用的信用类型、新开立的信用账户。
3.1.2 政府主导模式
主要以除英国外的德国、法国、意大利、西班牙等欧盟成员国为代表。
均采用以央行建立的中央信贷登记系统为主体的社会信用管理模式,主要用于金融监管和服务商业银行的风险控制工作。央行负责建立信用信息局并搭建全国数据库;所有银行根据统一接口,依法强制向信用信息局提供征信数据。
商业模式方面,这类系统或机构的收费原则是不以营利为目的,系统收费本着覆盖成本的原则。
3.1.3 会员制模式
主要以日本为代表。
银行、信用卡公司、其他金融机构、企业、零售商店等都可以成为信用信息中心的会员,通过内部共享机制实现中心和会员之间的征信信息互换。会员有义务向中心提供客户个人征信数据,中心也仅限于向会员提供征信查询服务。目前日本共有三大个人信用信息中心(CIC信用信息中心、JIC全国信用信息中心联合会、KSC全国银行个人信用信息中心)和两大企业征信机构(帝国数据银行、东京商工)。
商业模式方面,查询仅收成本费,不以盈利为目的。
3.1.4 混合制模式
主要以韩国和印度为代表。
韩国征信体系表现为“两层构架+三种共享模式”(如图5所示):
图5. 韩国征信体系示意图
第一层构架包括中央信用信息集中登记机构(即韩国银行联合会,简称KFB)和四家行业信用信息集中登记机构,均为非营利性。
第二层构架为以营利为目的的私营征信局或征信公司,它们从上述登记机构采集信息,同时通过协议从金融机构、百货公司等债权人处收集其他信用信息,再对外提供信用评级和报告等服务。
三种共享模式包括:(1)强制金融机构向KFB报送信用信息,再由KFB提供给私营征信公司;(2)通过协会或公司集团实现行业内部信息共享;(3)征信公司购买其他信息。
根据中国的国情,韩国的模式相对而言具有较大的参考价值。其中,混合发展模式的征信体系具有以下优点:
1) 建立具有行业基础构架作用的信用中心,并且依靠国家强制力迅速、准确地实现了全国范围内信用信息的统一和集中,并且覆盖面较广。
2) 政府制定、完善“游戏规则”,扶持一批社会化信用机构有偿地使用国家信用中心的基础信息,并鼓励其采集更多数据源的信用信息,通过数据加工形成附加价值更高的信用评级、信用报告和咨询服务等,不仅有效地实现了更大范围的信息共享,而且促进了征信行业内的有效竞争。
3.2 国内现状
3.2.1 格局
目前国内是:人行征信系统为主导、市场化征信机构为辅的多元化格局。
中国征信体系建设从信贷征信起步,目前已形成以人行金融信用信息基础数据库为主导、市场化征信机构为辅的多元化格局(如图6所示)。人行征信系统作为基础数据库,是征信体系的核心环节;立足于细分市场的市场化征信机构,发挥其细分数据优势,两者差异化配合构建了完整的征信系统。
图6. 国内征信市场运营模式示意图
1) 人行金融信用信息基础数据库:于2006年建成,由人民银行征信中心负责运营和维护,采取强制方式登记个人和企业金融信用信息,为征信市场各参与主体提供最主要、最基础的信用数据。
2) 市场化征信机构可分为三类:
地方性信用信息服务机构,约20家,主要服务于当地企业信用信息共享。少数机构从事个人征信服务,如上海资信、深圳鹏元等;近年来部分机构开始涉及P2P平台信用服务,如上海资信承建了网络金融征信系统(NFCS)、安融惠众建设了小额信贷行业信用信息共享服务平台(MSP)。
社会征信机构和资信评级机构,约120家。社会征信机构规模较小,从事企业信用登记、信用调查。资信评级机构数量众多,占据了征信市场的大部分收入;其中新华信、华夏信用、中诚信、大公国际等8家从事债券评级业务,业务规模相对较大,其余从事信贷市场评级业务,主要包括借款企业评级、担保公司评级等。
新兴民营征信机构,超过10家,主要服务于企业内部的信用风险控制。另外,其中部分机构虽然并非从事信贷的金融机构,无法直接接入人行征信系统,但是它们通过集团内部担保公司或接入其他平台等渠道,间接地获得了人行金融信用信息数据。
3.2.2 市场竞争地图
从服务对象来看,目前国内针对大中型企业征信服务的市场格局已相对稳定,而针对个人征信服务和小微企业征信服务的市场尚不成熟,正在竞争中成长。整个征信市场竞争地图如图7所示。
图7. 国内征信市场竞争地图
3.2.3 问题与挑战
目前国内互联网金融征信需求日益增加,现有征信体系短板凸显。主要存在以下四个方面的问题:
1) 重征信、轻评级,核心环节缺失
现有人行征信系统产品以征信报告为主,无法直观量化信用水平;同时由于不具备过硬的信用评级模型,中小信贷公司、P2P平台的风控能力、审贷效率不高。征信原始数据并非最终产品,不仅数据繁杂、众多,一般无法在市场上流通,往往需要包装成征信报告或信用评级。而目前人行征信体系对个人征信和企业征信仅提供征信报告,无法直观地量化个人和企业的信用水平。
征信数据产品化的核心环节在于信用评级模型,国内大多数金融机构一般使用FICO或三大征信公司提供的评级模型。但众多中小信贷公司、P2P平台难以承担高昂的技术开发成本,其整体风控水平、贷款申请效率不高。
2) 征信体系的“陌生人”对P2P风控形成巨大挑战
现有征信数据覆盖面有限。就个人征信而言,目前人行个人征信系统共收录8.5亿人信息,其中有信贷数据的只有3亿多人,约有5亿人在人行征信系统中只记录经济信息,并无有效征信信息。企业征信系统覆盖率仅32%。
征信体系的“陌生人”存在一定风险敞口。近5亿的人口、超过4000万的企业、商家成为人行征信体系的“陌生人”,它们对P2P企业的风控形成了巨大挑战。
3) 各P2P平台之间征信数据共享不充分
目前征信信息严重碎片化,P2P平台之间征信数据共享不充分。由于信贷机构性质不明确,目前P2P平台尚未接入人行金融信用信息基础数据库,未充分报告借款人借贷情况。虽然P2P网络金融信息共享系统(NFCS)和小额信贷行业信用信息共享服务平台(MSP)分别已接入203家和329家机构,但是相对于超过1000家规模的P2P网贷企业而言,仍显得杯水车薪。
4) 个人和小微企业的融资规模和融资渠道受制于征信体系的服务能力
个人征信和小微企业征信市场的服务能力明显不足。目前征信市场上只有上海资信、深圳鹏元、安融惠众、国政通等少数机构对外提供个人征信和小微企业征信服务,相对于数量超过120家的企业征信机构,个人征信和小微企业征信市场的服务能力明显不足。然而,P2P行业的借款人往往是中低收入人群、初创业者或小微企业,多为人行征信体系的“陌生人”。信用调查成本高企已经成为P2P融资规模增长的风控瓶颈,一定程度上影响了互联网金融业务的持续、健康发展。起初大部分P2P平台开展的是线上信用贷款,平台仅起撮合借贷双方的角色。目前,由于信用事件的频繁发生,更多P2P平台不得不放弃P2P模式,转型线下业务,并通过提高借款成本等方式覆盖高风险。但是,通过提高借贷价格降低平台自身运营风险的方式不利于行业良性发展,也无法从本质上解决个人及中小微企业的融资难问题。
二、关键技术与社交网络价值
1. 关键技术剖析
1.1 基本步骤和模块
在诸多技术中,最核心的是信用评级或评分模型。其构建和使用过程通常包含四个步骤:
1)数据准备:包括模型数据库的建立、数据的录入、清洗和筛选,以及初步的计算工作,例如归一化,噪声剔除等。
2)指标选择:例如,对于企业征信,评级模型的指标分为经营指标和财务指标两大类。依据不同行业企业的主体评级方法,分行业确定用于模型拟合的指标池。有时指标池还需依据行业专家经验确立。
3)单变量分析:通过单变量分析找出单个指标与违约率之间的映射关系。例如,在企业征信领域,经营指标的映射关系由行业专家估计样本实际值和信用等级的对应关系,进而制定各个指标的具体评价标准即映射关系;财务指标的映射关系由非参数统计方法对信贷数据进行分析获得。
4)模型拟合与参数估计:例如采用前向特征选择的logistic回归模型。模型的参数估计通常采用最小二乘法、最大似然估计、最大后验概率等最优化方法。
1.2 主流信用风险模型
一般来说,现代信用风险模型可以分为以下两类:
1)盯市的投资组合理论模型,例如JP Morgan的Credit Metrics和KMV公司提出的以Merton模型为基础的信用风险模型。
2)违约模式模型,例如CSFP的Credit Risk+模型和McKinsey的Credit Portfolio View投资组合方法。
违约模式模型是用来估计再给定期限内资产组合的违约风险概率分布。盯市模型是在允许信用度下降(只要没有完全违约)的情况下,估计资产组合价值在未来的分布,从而产生了对投资组合风险价值的度量。
最近,在业界的实际系统中主要盛行的方法是判别分析(LDA)、logistic回归、层次分析模型(AHP)、多目标线性规划、决策树、SVM等,而在面临非常多参数时通常采用神经网络法(百度开始使用深度神经网络)。
在目标函数方面,以前的系统通常以预测客户的违约率为目标,而近年来开始流行采用生存分析法预测客户在任意时点上的违约概率的变化情况,以及针对投资组合的最大化利润目标函数、最小化损失目标函数等。
1.3 最新的研究进展
通过分析资产价值驱动的内生违约的结构模型、随机跳过程假设下的外生违约的简约模型和不完全信息下的信用风险度量模型的研究路径,发现现有的研究在不完全信息的刻画、不完全信息下信用衍生品定价和违约相关性方面研究尚处于起步阶段。目前的研究方向大体分为三类:
①如何从交易噪声和信息滞后的角度来定义不完全信息;
②如何处理信用产品定价模型中的参数估计和状态估计问题;
③如何利用copula函数来处理不完全信息下的违约传染问题。
此外,由于个人信用的动态变化、信用评分目的的转变、经济形势对信用评分的影响,采用动态信用评分方法也势在必行。其应用领域有:确定信用额度、欠款催收、欺诈识别、促销(推荐相关信贷产品)等。
早期的动态信用评分模型有美国三大信用评估机构都使用的FICO评分法,以及其他一些在静态模型中加入描述行为的变量。上世纪90年代发展的主要模型有Markov决策过程方法和生存分析法。至本世纪初,提出了多准则线性规划、基于聚类的动态信用评分以及基于混合数据挖掘方法的动态信用评分。其中的有些方法在上一小节中也已提及。
2. 社交网络与征信
2.1 社交网络的信息揭示作用
社交网络在互联网金融中的作用:社交网络以人际关系为核心, 把现实中真实的社会关系数字化到网上并加以拓展, 是个人发布、传递和共享信息的平台, 建立了自愿分享和共享机制。社交网络有两个基础:一是人类作为社会动物固有的网络行为, 主要有四个特点:交换性、一致性、传染性、传递性;二是互联网和通讯手段的发展, 降低了个人发布信息以及与日常生活之外的人联系的成本, 产生了一些新的分工协作模式,比如,人肉搜索、维基百科的编撰等。在信息内涵上, 社交网络蕴含了非常丰富的关系数据, 即个体之间接触、联络、关联、群体依附和聚会等方面信息。
社交网络的信息揭示作用可以表现为:个人和机构在社会中有大量利益相关者。这些利益相关者都掌握部分信息,比如财产状况、经营情况、消费习惯、信誉行为等。单个利益相关者的信息可能有限,但如果这些利益相关者都在社交网络上发布各自掌握的信息,汇在一起就能得到信用资质和盈利前景方面的完整信息。社交网络使人与人(机构)之间的“社会资本”可以较快积累, 是新型的“财富”, 人们的诚信程度提高, 大大降低了金融交易的成本, 对金融交易有基础作用。另一方面, 也更为严格地约束人们可能的违约动机和道德风险。
2.2 社交网络对个体信任、金融决策的影响
在互联网金融交易决策过程中,人们也会更大程度参考社交网络中朋友的意见。不仅是因为他们之间更加相互熟悉和了解,而且是因为他们之间有着强烈的认同感。社交网络对互联网金融或某一具体投资项目的态度,在很大程度上会影响到个体的信任程度。
2.3 社交网络对金融信用边界的拓展
2.3.1 互联网金融信用
大数据应用是互联网金融信用问题的核心。随着云计算和大数据技术的发展,使得利用大数据优化传统信用评估方法成为可能,降低了融资双方的信息不对称和交易成本。
互联网金融信用定义为:互联网金融市场中由交易双方以及网络平台提供方之间形成的信用互动关系,即在互联网金融市场中,交易主体遵守市场合约的程度。
与传统信用评估理论相比,互联网金融信用有其自身特点,信用评估的主要对象是中小微企业或个人,各主体从事经济活动的场所主要是线上市场,具有大数据优势。互联网金融信用评估主要具有以下特征:信用评估信息多源化、海量化;信用信息应用广义化;信用评估实时化;信用类型或信用承载人类型趋同化以及社会资本和金融资本具备互换性。
在业界有许多利用大数据进行信用评估以此提供互联网金融服务的成功案例,并有文献将其定义为大数据金融。例如:国内的金电联行和国外的kabbage。和主体相关的一切数据都是信用数据,大数据的出现使得对个人或企业进行全面的信用评估成为可能。
2.3.2 社会资本
在互联网金融信用评估背景下,大数据可以划分为三类:基本信息、财务信息和社会资本。
社会资本是指人类社会中不同于物质资本、人力资本的第三种资本形式。学术界对于社会资本的定义还没有达成共识,国内外分别有文献从资源观、能力观、结构观和关系观的角度对社会资本的概念进行了阐述说明,更进一步,从企业社会资本和企业家社会资本出发分析了社会资本对企业信用评估的具体影响。相比传统企业社会资本,互联网金融企业社会资本具有以下的特征:虚拟性,庞大性,复杂性,交叉性,多维度性和动态性。总体来看,基于互联网的社会资本是显现的、可测的,更加有利于进行测量和分析。
中小企业信用评估即是对中小企业未来偿还贷款能力的评价。未来偿还贷款的资金主要来源于两个方面:一是企业自身现有资源,一是企业未来收入能力。其中,前者取决于企业财务能力,后者则取决于企业的社会资本。现有文献讨论了社会资本主要通过影响企业获取关键资源能力、企业竞争优势、技术创新、企业绩效和管理水平来影响企业预期收入能力,从而影响企业的信用水平。
目前,我国中小企业融资难问题严重,关键原因是信息不对称。国外很多文献研究P2P网络借贷市场中社会资本的影响,并得出结论:社会资本数据可以降低借贷双方的信息不对称性。也有学者从信号理论出发分析社会网络对借贷行为的影响,指出积极与社会网络中的其它成员进行交流、与社会网络成员之间进行经济交易、对其它社会网络成员进行背书等行为,对市场来说是强有力的信用信号。因此,市场中信用水平较低的人,可以通过这些行为降低其与他人之间的信息不对称性,获取他人信任。
更进一步,社会网络往往建立在情感的基础上,如果出现了信用违约,不但会有惩罚机制,同时也会在社会网络中丧失信誉,失去亲密关系,这种伴随社会网络存在的耻辱成本(Stigma Cost)大大增加了社会网络中企业违约的社会成本。还有的学者从管道、棱镜和社会化羊群三个角度出发,研究了朋友关系在网络P2P借贷中的作用。他们得出的主要结论有:朋友关系以管道效应的方式正效应的影响经济行为;朋友关系以棱镜效应的方式正效应的影响经济行为,但友情背书对后人具有负效应;朋友关系增强了市场中的羊群效应。
参考文献:
[1] 百度百科:征信. 2015.
[2] 林采宜,尹俊杰. 互联网金融时代的征信体系, 2014.
[3] 梁世栋, 李勇, 方兆本等. 信用风险模型比较分析, 2002.
[4] 王新军,吴建华,张颖. 现代信用风险度量模型的最新理论研究进展, 2014.
[5] 谢平,邹传伟. 互联网金融模式研究, 2012.
[6] 基于大数据的互联网金融信用评估, 2014.