本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值(和条件 VaR) 使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验,并使用 Block...最后,使用条件异向性 (GARCH) 处理的广义自回归来预测未来 20 天后指数的未来值。本文将确定计算风险因素的不同方法对模型结果的影响。...第 1c 节 - 下载股票代码数据 股票价格数据下载并读入 R 编程环境。收益率是用“开盘价/收盘价 ”计算的,十家公司的数据合并在一个数据框中,(每家公司一列)。...结果数据帧的每一行代表记录股价的 10 年中的一个工作日。然后计算数据帧中每一行的均值。一列 10 年的日期被附加到数据框。还创建了仅包含行均值和日期信息的第二个数据框。...创建一个数据框统计表,其中包含每列(或公司)的最小值、中值、平均值、最大值、标准偏差、1% 分位数、5% 分位数、95% 分位数、99% 分位数。
最后,使用条件异向性 (GARCH) 处理的广义自回归来预测未来 20 天后指数的未来值。本文将确定计算风险因素的不同方法对模型结果的影响。...第 1c 节 - 下载股票代码数据 股票价格数据下载并读入 R 编程环境。收益率是用“开盘价/收盘价 ”计算的,十家公司的数据合并在一个数据框中,(每家公司一列)。...结果数据帧的每一行代表记录股价的 10 年中的一个工作日。然后计算数据帧中每一行的均值。一列 10 年的日期被附加到数据框。还创建了仅包含行均值和日期信息的第二个数据框。...创建一个数据框统计表,其中包含每列(或公司)的最小值、中值、平均值、最大值、标准偏差、1% 分位数、5% 分位数、95% 分位数、99% 分位数。...分位数百分比适用于极值。还创建了所有收益率均值的时间序列图表。
本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值(和条件 VaR) 使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验,并使用 Block...第 1c 节 - 下载股票代码数据 股票价格数据下载并读入 R 编程环境。收益率是用“开盘价/收盘价 ”计算的,十家公司的数据合并在一个数据框中,(每家公司一列)。...结果数据帧的每一行代表记录股价的 10 年中的一个工作日。然后计算数据帧中每一行的均值。一列 10 年的日期被附加到数据框。还创建了仅包含行均值和日期信息的第二个数据框。...创建一个数据框统计表,其中包含每列(或公司)的最小值、中值、平均值、最大值、标准偏差、1% 分位数、5% 分位数、95% 分位数、99% 分位数。...分位数百分比适用于极值。还创建了所有收益率均值的时间序列图表。
complete.cases(saledata),] #筛选出缺失值的数值 3、箱型图检验离群值 箱型图的检测包括:四分位数检测(箱型图自带)+1δ标准差上下+异常值数据点。...常见的有unique、数据框中duplicated函数,duplicated返回的是逻辑值。...inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分 inputfile2=inputfile[sub,] 3、噪声数据处理——分箱法 将连续变量等级化之后,不同的分位数的数据就会变成不同的等级数据...(PMM,预测均值法常见)、插补的变量有哪些、预测变量矩阵(在矩阵中,行代表插补变量,列代表为插补提供信息的变量, 1和0分别表示使用和未使用); 同时 利用这个代码imp$imp$sales 可以找到...可见博客:在R中填充缺失数据—mice包 三、离群点检测 离群点检测与第二节异常值主要的区别在于,异常值针对单一变量,而离群值指的是很多变量综合考虑之后的异常值。
3.2.2.列联表数据的检验 例10.为了研究吸烟是否与患肺癌相关,对63位肺癌患者及43名非肺癌患者(对照组)调查了其中的吸烟人数,得到2x2列联表,如下表所示 ? ...其中x,y是观察数据构成的数据向量。alternative是备择假设,有单侧检验和双侧检验,mu待检参数,如中位数M0.paired是逻辑变量,说明变量x,y是否为成对数据。...为了检验一种新的复合肥和原来使用的肥料相比是否显著提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料。...3.3.5.二元数据相关检验 例20.某种矿石中两种有用成分A,B,取10个样品,每个样品中成分A的含量百分数x(%),及B的含量百分数y(%)的数据下表所示,对两组数据进行相关性检验。 ?...假设此例中两组数据均来自正态分布,使用pearson相关性检验, R语言代码: ore<-data.frame( x=c(67, 54, 72, 64, 39, 22,
例如,若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150。 这是因为模型会按中位数来预测。...下面让我们看一个实际的例子,以便更好地理解基于分位数损失的回归是如何对异方差数据起作用的。 ****分位数回归与最小二乘回归**** ? 左:b/wX1和Y为线性关系。具有恒定的残差方差。...右:b/wX2和Y为线性关系,但Y的方差随着X2增加。(异方差) 橙线表示两种情况下OLS的估值 ? 分位数回归。...虚线表示基于0.05和0.95分位数损失函数的回归 附上图中所示分位数回归的代码: https://github.com/groverpr/Machine-Learning/blob/master/notebooks...使用分位数损失(梯度提升回归器)预测区间 上图表明:在sklearn库的梯度提升回归中使用分位数损失可以得到90%的预测区间。其中上限为γ=0.95,下限为γ=0.05。
前文介绍了脏数据中缺失值数据分析|R-缺失值处理和异常值数据分析|R-异常值处理的常规处理方法,之后就可以对数据进行简单的描述性统计,方便我们对数据有一个整体的认识。...常见描述性统计可以通过最小值、下四分位数、中位数、上四分位数和最大值,均值、众数、标准差、极差等查看数据的分布和离散程度;通过偏度(数据分布形态呈现左偏或右偏)和峰度(分布形态呈现尖瘦或矮胖)等查看数据的正态与否...下面简单的介绍如何使用R实现数值型变量的上述统计量。 1 基础包中summary()函数 可得到数值型变量的最小值、下四分位数、中位数、上四分位数和最大值。...#使用自带的mtcars数据集,选择mpg,disp和hp三个数值型变量进行分析。...其中p=0.05表示计算平均数的置信区间默认置信度为0.95.
例如,若数据中90%的样本对应的目标值为150,剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点,而对所有样本的预测值都为150。 这是因为模型会按中位数来预测。...下面让我们看一个实际的例子,以便更好地理解基于分位数损失的回归是如何对异方差数据起作用的。 分位数回归与最小二乘回归 左:b/wX1和Y为线性关系。具有恒定的残差方差。...右:b/wX2和Y为线性关系,但Y的方差随着X2增加。(异方差) 橙线表示两种情况下OLS的估值 分位数回归。...虚线表示基于0.05和0.95分位数损失函数的回归 附上图中所示分位数回归的代码: https://github.com/groverpr/Machine-Learning/blob/master/notebooks...使用分位数损失(梯度提升回归器)预测区间 上图表明:在sklearn库的梯度提升回归中使用分位数损失可以得到90%的预测区间。其中上限为γ=0.95,下限为γ=0.05。
但是,在一个数据框里你可以把向量包含不同类别的列表。这意味着,每一列的数据就像一个列表,每次你在R中读取数据将被存储在一个数据框中。例如: ? 让我们解释一下上面的代码。df是数据框的名字。...dim()返回数据框的规格是4行2列,str()返回的是一个数据框的结构,nrow()和ncol()返回是数据框的行数和列数。...na.rm = TRUE告诉R计算时忽略缺失值,只是计算选定的列中剩余值的均值(得分)。删除在数据中的行和NA,您可以使用na.omit ?...从这个数据我们还可以得到更多的推论: ? ? 从图中,我们可以看到每列的最小值,最大值,中位数,平均值,缺失值的信息等等。...否则,它将导致模型出现异方差性。 在R中我们使用lm()函数来做回归,如下: ? ? 调整后的R2可以很好的衡量一个回归模型的拟合优度。
本系列文章的主要目的是结合 R 和 Python 两种语言的代码来理解统计分析中的一些概念和方法。 主要是理解相关数学概念,不偏倚语言。...R 中在默认参数的情况下,第 i 个观察值对应 分位数,通过线性插值获得中位数。 对于上面这类基本统计函数,如果数据中缺少值,情况将变得更加复杂。为了说明,我们使用以下示例。...在上面,变量 sex、menarche 和 tanner 被转换为具有适当级别名称的因子(在原始数据中,这些变量使用数字表示)。将转换后的变量放回数据框中,以替换原始变量。...请注意,你会自动获得正确的直方图,其中列的面积与数字成正比。y 轴以密度单位(即每 x 单位的数据比例)为单位,因此直方图的总面积为 1。...如果由于某种原因,你想要其中列高为每个间隔中的原始数字的那种直方图,则可以使用 freq = T 进行指定。
Biweight midcorrelation:基于中位数而不是基于均值的样本之间相似度的一种度量,因此对异常值不那么敏感,并且可以作为其他相似度度量(例如Pearson相关)的可靠替代。...Percentage bend correlation折弯百分比相关性:Wilcox(1994)引入的折弯相关性是基于特定百分比的边际观测值的权重偏低(偏离默认值20%)而得出的。...Multilevel correlation多级相关:多级相关是部分相关的一种特殊情况,其中要调整的变量是一个因素,并作为随机效应包含在混合模型中。...,包括相关系数r,P值、相关检验的方法Method和观察值数量。...Sepal.Width | -0.37*** | -0.43*** | Petal.Length | 0.96*** | | 通过数据框的形式来展示
右:线性关系b/w X2和Y,但Y的方差随着X2增加而变大(异方差)。...橙线表示两种情况下的OLS估计 Quantile回归:虚线表示基于0.05和0.95 分位数损失函数的回归估计 如上所示的Quantile回归代码在下面这个notebook中。...,在给定预测变量的某些值时,估计因变量的条件“分位数”。...举个例子,γ= 0.25的Quantile Loss函数给高估的预测值更多的惩罚,并试图使预测值略低于中位数。 γ 是给定的分位数,其值介于0和1之间。...上限的计算使用了γ = 0.95,下限则是使用了γ = 0.05。 ▌比较研究 “Gradient boosting machines, a tutorial”中提供了一个很好的比较研究。
Quantile回归:虚线表示基于0.05和0.95 分位数损失函数的回归估计 如上所示的Quantile回归代码在下面这个notebook中。...,在给定预测变量的某些值时,估计因变量的条件“分位数”。...Quantile Loss的思想是根据我们是打算给正误差还是负误差更多的值来选择分位数数值。损失函数根据所选quantile (γ)的值对高估和低估的预测值给予不同的惩罚值。...举个例子,γ= 0.25的Quantile Loss函数给高估的预测值更多的惩罚,并试图使预测值略低于中位数。 ? γ 是给定的分位数,其值介于0和1之间。 ?...上限的计算使用了γ = 0.95,下限则是使用了γ = 0.05。 ▌比较研究 “Gradient boosting machines, a tutorial”中提供了一个很好的比较研究。
右:线性关系b/w X2和Y,但Y的方差随着X2增加而变大(异方差)。...橙线表示两种情况下的OLS估计 Quantile回归:虚线表示基于0.05和0.95 分位数损失函数的回归估计 如上所示的Quantile回归代码在下面这个notebook中。...,在给定预测变量的某些值时,估计因变量的条件“分位数”。...举个例子,γ= 0.25的Quantile Loss函数给高估的预测值更多的惩罚,并试图使预测值略低于中位数。 γ 是给定的分位数,其值介于0和1之间。...上限的计算使用了γ = 0.95,下限则是使用了γ = 0.05。 比较研究 “Gradient boosting machines, a tutorial”中提供了一个很好的比较研究。
对于sapply()函数,其使用格式为: sapply(x,FUN,options) 其中的x是你的数据框(或矩阵),FUN为一个任意的函数。如果指定了options,它们将被传递 给FUN。...函数fivenum()可返回图基五数总括(Tukey’s five-number summary,即最小值、 下四分位数、中位数、上四分位数和最大值)。...describe()函数可返回变量和观测的数量、缺失值和唯一值的数目、平均值、 分位数,以及五个最大的值和五个最小的值 通过Hmisc包中的describe()函数计算描述性统计量: >describe...使用 格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95) 其中的x是一个数据框或时间序列。...如果使用的是list(mtcars$am),则am列将被标注为Group.1而不是am。你使用这个赋值指定了一个更有帮助的列标签。
领取专属 10元无门槛券
手把手带您无忧上云