首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

风控中台

相关·内容

ML | 的异常检测原理与应用

今天来介绍一下的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。...异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到...抽象来说,就是需要从一堆数据,找到那个“邻舍不同”(粤语)的点,并能够给出合理的判断和解释。 02 异常检测的难点 为什么说异常检测很难呢?...主要有几个原因: 1)异常点和噪声会混杂在一起,机器难以具体识别开来; 2)现实很少有异常点的标签,因为标签越多也就意味着遇到过的异常越多,也不符合常识认知; 3)对于标签的定义也是很难,比如1个金融场景...所以很多时候我们在操作的过程,会先用无监督方法挖掘出异常样本,再基于这些样本去做有监督模型挖掘更多的异常点,这中间也多了一层转化,所以准确率和置信度上也有一定的下滑。

2.8K20

ML | 建模怎么做拒绝推断

02 为什么要做拒绝推断 在我们的生活,有很多关于幸存者偏差的例子,比如我们身边的同事月收入都是过万,就误以为大多数人都是这样子,身边的人都是本科毕业,就以为大多数人都上过大学。...《建模的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...以上的5个步骤,就是实施拒绝推断推断法之一的展开法。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模的样本偏差与拒绝推断

1.8K30
  • ML | 建模的KS

    我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。...不过这不影响我们去使用它,我们只需要知道在是怎么实现的,并且在实际场景怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度?...可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。...02 KS的生成逻辑 KS的生成逻辑公式也是十分简单: 好样本累计占比坏样本累计占比 在领域,我们在计算KS前一般会根据我们认为的“正态分布原则”进行分箱,一般来说分成了10份,然后再进行KS的计算...03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行

    4.6K30

    ML | 建模GBDT和XGBoost怎么调优

    03 什么建模场景下常用这两个明星算法?...贷 B卡(行为评分卡):S级出场率。 交易反欺诈:A级出场率,主要是支付,防止客户进行薅羊毛、套现等行为。 客户流失:A级出场率。 贷后 催收告警:A级出场率。 迁徙率预测:B级出场率。...在模型我们经常也是用来做分类(Classification),但我们知道GBDT的基分类器是CART,即Classification And Regression Tree,所以也可以支持回归建模...而关于模型怎么调优,我会在下一节一起讲。...模型怎么调优 关于模型的调优,先前有篇文章讲得比较细致《ML[7] | 模型调优的思路有哪些》,大家可以移步去回顾一下。

    1.5K30

    的大数据

    的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,的重要性超过流量、体验、品牌这些人们熟悉的指标。...这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是不过关。 ◆◆◆ 2. 的核心 风险控制需要做什么?与逾期率的绝对数值相比,对风险的控制能力要重要得多。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...x ,y:在美国,人们一般在上大学的时候就会拥有人生第一张信用卡。这样等到后续买房(房贷)买车(车贷)的时候,就已有了不短的信用历史了。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

    1.5K120

    ML | 建模的WOE与IV

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...第一次接触这两个名词是在做模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是...: 第i组响应客户数量 : 全部响应客户数量总和 :第i组未响应客户数量 :全部未响应客户数量总和 响应/未响应:指的是自变量每个记录对应的目标变量的值,目标变量的值为0或1,...04 Python实现 我们知道,针对连续型变量,是需要先转换为类别变量才可以进行IV值的计算的,现在我们把数据导入到Python,原始变量是连续型变量,那么我们如何在Python里实现IV值的计算呢

    3.6K20

    信贷模型搭建及核心模式分类

    2.评分卡的意义 在互联网金融体系,量化分析需要贯穿始终,评分卡模型是其中非常重要的一环。...3.评分卡的开发应用 在互联网金融评分卡开发过程,我们仔细研究了企业操作流程,反复推敲了模型构建步骤,最后我们认为从业务应用角度,评分卡开发应用应遵循: 业务定义➡️风险定义 ➡️风险分解➡️...直到我们和某P2P公司的经理实际交流后才明白这其中的含义。在传统银行信用卡业务,是很喜欢这类少量逾期的客户的,因为他们能给银行创造罚息,但是又不是恶意违约那种客户。...另外,模型在不同的阶段体现的方式和功能也不一样。...所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?

    2.3K10

    支付模型

    二、基于规则的 规则是最常用的,也是相对来说比较容易上手的模型。从现实情况总结出一些经验,结合名单数据,制定规则,简单,有效。 常见的规则有: 1....比如: 用户ID是在黑名单。 用户身份证号在反洗钱黑名单。 用户身份证号在公检法协查名单。 用户所使用的手机号在羊毛号名单列表。...它是其它模型的基础。实践,首先使用已知的规则来发现存在问题的交易,人工识别交易的风险等级后,把这些交易作为其它有监督学习的训练数据集。...互联网金融离不开机器学习,特别是支付。 在各种支付模型,决策树模式是相对比较简单易用的模型。 如下的决策树模型,我们根据已有的数据,分析数据特征,构建出一颗决策树。...支付场景分析 ; 支付数据仓库建设 ; 支付模型和流程分析(本文); 支付系统架构 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

    2K21

    建模的IV和WOE

    建模IV(信息价值)和WOE(证据权重)分别是变量筛选和变量转换不可缺少的部分。 很多文章已经讨论过这两个变量,本文在吸收前人优秀成果的基础上,希望用通俗易懂的语言让大家快速理解这两个变量。...并用简单的例子让大家明白在实际如何运用这两个变量,最后给出建模过程实际需要用到的Python代码。 1....表 1 - 极端例子1(用第一种方法算WOE) 从表1可知,如果该分箱坏人在总坏人中的占比和的该分箱的好人在总好人中占比相同,WOEi为0。...表 3 - 极端例子2(算IV) 从表3知,该组别坏样本占比和好样本占比的差异性越大,该组WOEi的绝对值越大。...,针对不在组别1的数据另外进行分析。

    2.1K30

    的大数据和机器学习

    本篇文章只关注个人信用借款的。抵押贷,企业贷不在讨论范围。 ◆ ◆ ◆ 1. 的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。...做得好与坏直接决定了一家公司的生与死,而且其试错成本是无穷大的,往往一旦发现出了问题的时候就已经无法挽回了。截止到2015年底,全国总共3000多家P2P平台里超过三分之一已经倒闭。...这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是不过关。 ◆ ◆ ◆ 2. 的核心 风险控制需要做什么?与逾期率的绝对数值相比,对风险的控制能力要重要得多。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

    91830

    信贷如何平滑的做收紧?

    本篇来介绍下风的策略收紧,内容节选自《100天专家》第67期。 1. 什么是策略新增? D类调优可分为宏观和微观两个层面的。...1)概念理解 策略新增就是,在不改变已有策略的基础上(保持不变)额外增加新的策略,来达到策略调优的目的,一般应用在D类的收紧策略。...基于新的数据维度制定规则策略,补充到决策流程。因为已有策略不变,额外增加了新的审批策略,通过率会下降。 2....2)二维交叉规则示例 下面是一个二维交叉的规则组合,评估交叉格子的区间坏账率(Lift)和样本数量占比,反映对于逾期率、和通过率的影响。 4....以上来自原创课程的节选,“Python代码实操视频讲解” 的完整内容(如下示例),在《100天专家》中进行视频更新。

    16010

    为本创新驱动,券商如何实现智能加速?

    某证券行业头部券商在二十余年创新发展过程逐渐形成了以为本创新驱动,服务实体经济发展的理念。在战略规划中将金融科技应用视作首要战略支柱,长远目标是要打造智慧型数字化金融平台。...合规始终是公司的首要核心竞争力,该券商不断推进全面风险管理体系建设,需要全方位提升主动合规控管理能力,进而提升风险管理精细化、智能化水平。...而由于合规处于企业核心竞争力的高度,原数据积累10年,数据量已超30TB。...非现场平台各项报表和查询生成时间逐渐拉长。夜间批量任务越来越慢,部分任务出现超时失败现象。 02 原合规数据库数据量巨大,原有的传统的备份手段难以实现数据的实时保护。...价值提升 1 通过QData数据库云平台大幅提升了系统的业务效率,日终调度业务从原十几个小时缩短至1.5小时,性能提升10倍以上。

    1.2K10

    领域特征工程

    在金融行业,风险控制()是核心环节,它关乎资产安全、合规性以及机构的长期稳健发展。随着大数据时代的到来,金融机构面临着前所未有的数据量和复杂性。...在这样的背景下,领域特征工程应运而生,成为连接原始数据与精准风险评估的桥梁。 特征工程,简而言之,是对数据的一种深度加工,它通过一系列技术手段,将原始数据转化为对风险预测有用的信息。...在领域,特征工程的核心目标是构建出能够准确反映个体或实体风险水平的特征集。...此外,良好的特征工程实践还能促进模型的解释性,为决策提供更加透明的依据。 随着技术的发展,特征工程的方法也在不断创新。...通过综合运用这些特征衍生方法,领域的特征工程能够更全面地挖掘数据潜力,为风险评估提供多维度的视角。

    23510

    决策引擎经验

    一套完整的体系,在,少不了决策引擎,今天就浅谈一下决策引擎。 一、优先级 决策引擎是一堆规则的集合,通过不同的分支、层层规则的递进关系进行运算。...而既然是组合的概念,则在这些规则,以什么样的顺序与优先级执行便额外重要。 系统的作用在于识别绝对与标识相对风险,如果是绝对,则整套的审核结果便将是“拒绝”。...而一些通过对接外部三方征信的规则,需支出相关查询费用的,则靠后运行。此外,在外部三方征信的规则,命中式收费的规则(如黑名单与反欺诈)又可以优先于每次查询式收费的规则(如征信报告)运行。...三、记录与统计 最终到底是“跑出来”的,所以,整个系统对所有不同规则的触发需进行有效的记录与统计,以便后期可支持数据分析与模型调整的相关工作。...具体的记录与统计内容,主要如下: 1、触发的具体规则 举例说明:通过两种不同的视角进行记录,一是用户与订单层面,记录其所触发的明细规则;二是规则层面,记录某条规则具体的触发率。

    1.1K30

    必做的数据分析

    大数据领域就没有不做数据分析的,大数据也不例外。 我的观点是和其他互联网业务都是互通的,本文介绍下风必做的数据分析,用以说明数据分析是一通百通的。 工欲善其事,必先利其器。...01 业务理解 如果一家金融机构聘请你给他们的业务做咨询,你知道怎么办吗? 别告诉我,你想硬搬建模比赛的那套东西。不要掉价。 解决方案一定是针对当前业务和用户客群独家定制的。...通过KYC,你可以大致知道发力的方向在哪里,是拓展新户还是挖掘存户,是提升能力还是优化产品设计,等等。 02 漏斗分析 进件漏斗分析可以帮助我们定位到产品设计的薄弱位置,从而针对优化。...vintage分析把不同期的样本放在了一起,可以用来观察不同期客群风险的变化,然后确定是流量本身的变化,还是宏观形形势的变化,还是策略的变化等等。...如大家所见,在领域所在的数据分析,应该和其他互联网领域的数分并无本质区别。 因为和其他业务一样,本质都是用户生命周期管理。基于相同的底层逻辑,数据分析必然也并无二致。

    1.2K30

    建模整体流程

    确定建模目的 在信贷领域中建立模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。 在支付领域建立模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。...确定好坏样本逻辑 在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0) 在支付领域中,有赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防的风险决定...特征工程 在领域一直都有这样一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。通俗的讲就是衍生变量去捕获风险客户。...模型上线 在支付领域如果模型验证没有问题,一般会上到线上,自动生成案例。在信贷中会模型搭配规则,判断申请贷款的人是通过放贷、拒绝放贷、还是转人工处理。...本文所讲的都是大致流程,没有深入展开分析,在之后的各期中会逐步展开这里所讲的每一小点,给所有需要从事模型的同学一点建议。 以上都是我在建模过程的一点经验总结,有不正之处恳请指正!

    2K20
    领券