首页
学习
活动
专区
工具
TVP
发布

大数据风控

专栏成员
57
文章
135123
阅读量
60
订阅数
R中季节性时间序列分析及非季节性时间序列分析
①SAM(Simple Moving Average) 简单移动平均,将时间序列上前n个数值做简单的算术平均。 SMAn=(x1+x2+…xn)/n
Erin
2022-05-09
1.7K0
R聚类算法-DBSCAN算法
DBSCAN算法(Density-Based Spatial Clustering of Application with Noise)密度聚类算法 基于密度的聚类算法,K-means和层次聚类对于球状的簇聚类效果很好,DBSCAN可以用于更多复杂形状簇的聚类。
Erin
2022-05-09
6240
风控策略中如何制定差异化利率定价方案
一个产品上线后,随着规模的扩大,基于风险收益的匹配原则,以及差异化营销的管理要求,除了授信额度策略之外,我们还需要制定差异化利率、差异化期数、差异化还款方式等一系列的组合拳策略。那么,如何结合模型和决策引擎,设计并上线一版差异化的利率方案,今天我们来讲讲这个项目。
Erin
2021-02-22
1.4K0
信用标准评分卡模型开发及实现
版权声明:本文为博主原创文章,未经博主允许不得转载。
Erin
2019-07-02
2.3K0
Python中的相关分析correlation analysis
相关分析(correlation analysis) 研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。 线性相关关系主要采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相
Erin
2018-01-09
2.5K0
Python中的交叉分析pivot_table
交叉分析 通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析; 从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。 交叉计数函数: pivot_table(values,index,columns,aggfunc,fill_value) 参数说明: values:数据透视表中的值 index:数据透视表中的行 columns:数据透视表中的列 aggfunc:统计函数 fill_value:NA值的同一替换 #相当于excel中的数据透视表功
Erin
2018-01-09
2.4K0
Python中的分布分析cut+groupby
分布分析(cut+groupby) 根据分析目的,将数据(定量数据)进行等距或者不等距的分组, 进行研究各组分布规律的一种分析方法。 import numpy import pandas data = pandas.read_csv( 'C:/Users/ZL/Desktop/Python/5.3/data.csv' ) aggResult = data.groupby( by=['年龄'] )['年龄'].agg({ '人数': numpy.size }) data
Erin
2018-01-09
1.7K0
Python中时间格式数据的处理
1、时间转换 时间转换是指字符型的时间格式数据,转换成为时间型数据的过程。 一般从csv导入过来的文件,时间都保存为字符型格式的,需要转换。 时间转换函数: datatime=pandas.to_da
Erin
2018-01-09
2.9K0
Python中的虚拟变量(dummy variables)
虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义 例如:尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如:颜色(Red,Blue,Green) 处理函数: get_dummies(data,prefix=None,pref
Erin
2018-01-09
3.4K0
Python中的分组分析groupby
分组分析 根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间差异性的一种分析方法。 定性分组 定量分组 分组统计函数: groupby(by=[分组列1,分组列2,...]) [统计列1,统计列2,...] .agg({统计列别名1:统计函数1,统计列别名2:统计函数2,...}) 参数说明: by  用于分组的列 中括号 用于统计的列 agg  统计别名显示统计值的名称,统计函数用于统计数据 代码示例: import numpy import pandas data = pandas.re
Erin
2018-01-09
2K0
Python中如何进行数据分组
数据分组 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在联系和规律性。 cut 函数: cut(series,bins,right=True,labels=NULL) ① series  需要分组的数据 ② bins    分组的划分数组 ③ right   分组的时候,右边是否闭合,默认为闭合True ④ labels  分组的自定义标签,可以不自定义 import pandas data = pandas.read_csv( 'D:\\PDA\
Erin
2018-01-09
3.2K0
Python中的数据标准化
数据标准化 数据标准化是指将数据按比例缩放,使之落入到特定区间。 为了消除量纲的影响,方便进行不同变量间的比较分析。 0-1标准化: x=(x-min)/(max-min) Python代码实现: import pandas data = pandas.read_csv( 'D:\\PDA\\4.14\\data.csv' ) data['scale'] = round( ( data.score-data.score.min() )/( data
Erin
2018-01-09
1.4K0
Python中如何实现分层抽样
Python中如何实现分层抽样 在我们日常的数据分析工作中,常用到随机抽样这一数据获取的方法。 如果我们想在一个大的数据总体中,按照数据的不同分类进行分层抽样,在Python中如何用代码来实现这一操作呢。 下面我们要进行分层抽样的应用背景: 随机抽取2017年重庆市不同区域高中学生的高考成绩。 这里数据总体为2017年重庆市所有区域高中的学生高考成绩。 分层抽样按照区域分类。 设沙坪坝区为1,渝北区为2,南岸区为3(作为方法展示,只列出三个区,实际分析中按照抽样方法添加参数即可 代码实现: #分层抽样 gb
Erin
2018-01-09
6.7K0
Python中重复值、缺失值、空格值处理
1、重复值处理 把数据结构中,行相同的数据只保留一行。 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates() from pandas import read_csv df = read_csv('D://PDA//4.3//data.csv') df #找出行重复的位置 dIndex = df.duplicated() #根据某些列,找出重复的位置 dIndex = df.duplicated('id') dIndex = df.duplic
Erin
2018-01-09
4.1K0
Python中字段抽取、字段拆分、记录抽取
1、字段抽取 字段抽取是根据已知列数据的开始和结束位置,抽取出新的列 字段截取函数:slice(start,stop) 注意:和数据结构的访问方式一样,开始位置是大于等于,结束位置是小于。 from pandas import read_csv df = read_csv( 'D:\\PDA\\4.6\\data.csv' ) #默认将电话号码按照数值型来处理了,需要先转换为字符型,astype df['tel'] = df['tel'].astype(str) #运营商 bands = df[
Erin
2018-01-09
3.3K0
R中如何用ifelse进行数据分组
数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性; 在R中,我们常用ifelse函数来进行数据的分组,跟excel中的if函数是同一种用法。 ifelse(condition,TRUE,FALSE) > data <- read.table('1.csv', sep='|', header=TRUE); > > level <- ifelse( + data$cost<=20, "(0,20]", + ifelse( +
Erin
2018-01-09
2.9K0
R中数据的标准化0-1标准化
数据标准化,是将数据按比例缩放,使之落入到特定区间,一般我们使用0-1标准化; x=(x-min)/(max-min) >data <- read.csv('1.csv', fileEncoding='utf-8') > data class name score 1 一班 朱志斌 120 2 一班 朱凤 122 3 一班 郑丽萍 140 4 一班 郭杰明 131 5 一班 许杰 122 6 二班 郑芬 119 7 二班 林龙
Erin
2018-01-09
3.5K0
R中重复值、缺失值及空格值的处理
1、R中重复值的处理 unique函数作用:把数据结构中,行相同的数据去除。 #导入CSV数据 data <- read.csv('1.csv', fileEncoding = "UTF-8", stringsAsFactors = FALSE); #对重复数据去重 new_data <- unique(data) 重复值处理函数:unique,用于清洗数据中的重复值。 “dplyr”包中的distinct() 函数更强大: distinct(df,V1,V2) 根据V1和V2两个条件来进行去重 uniq
Erin
2018-01-09
8.1K0
R中的向量化运算
1、R中的向量化运算-seq seq(1, 10, by=1) seq(1, 10, by=0.1) seq(1.9, 10, by=0.1) #注意,不能这样子递减 seq(10, 1, by=0.1) #注意,你可以这样子递减 seq(10, 1, by=-0.1) #除了设置步长,还可以设置均分的步数 seq(10, 1, length.out=10) seq(10, 1, length.out=100) seq(10, 1, length.out=91) #数清楚里面的个数 2、R中
Erin
2018-01-09
1.9K0
R中的数据导入与导出
1、数据的导入 导入文本文件 使用read.table函数导入普通文本文件 read.table(file,header=FALSE,sep="",...) #导入csv文件 data1 <- rea
Erin
2018-01-09
2.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档