当存在缺失数据时，使用R随机森林对新数据进行预测

当存在缺失数据时，使用R的随机森林（Random Forest）对新数据进行预测是一个常见的需求。以下是关于这个问题的详细解答：

基础概念

随机森林是一种集成学习方法，通过构建多个决策树并输出分类结果的模式来工作。它能够处理大量的输入变量，并且在数据集上表现良好，即使存在大量的噪声和缺失值。

处理缺失数据的优势

鲁棒性：随机森林能够较好地处理缺失数据，因为它在构建每棵树时只使用部分数据。
预测准确性：即使数据不完整，随机森林通常也能提供准确的预测。

类型与应用场景

类型：随机森林主要用于分类和回归任务。
应用场景：广泛应用于生物信息学、金融分析、医疗诊断等领域。

遇到的问题及原因

问题：在存在缺失数据的情况下进行预测可能会导致模型性能下降。原因：

缺失值可能导致某些特征在训练过程中被忽略。
不同的缺失模式可能会影响模型的学习过程。

解决方法

1. 删除含有缺失值的行

这是一种简单但可能损失大量信息的方法。

library(randomForest)

# 假设df是你的数据框，且目标变量为"target"
df_clean <- na.omit(df)  # 删除含有缺失值的行

# 训练随机森林模型
rf_model <- randomForest(target ~ ., data = df_clean)

# 对新数据进行预测
predictions <- predict(rf_model, newdata)

2. 使用均值/中位数/众数填充缺失值

这种方法可以保留更多数据，但可能会引入噪声。

# 对于数值型特征，使用均值填充
df$num_feature[is.na(df$num_feature)] <- mean(df$num_feature, na.rm = TRUE)

# 对于分类特征，使用众数填充
mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}
df$cate_feature[is.na(df$cate_feature)] <- mode(df$cate_feature)

# 训练随机森林模型并进行预测
rf_model <- randomForest(target ~ ., data = df)
predictions <- predict(rf_model, newdata)

3. 使用KNN填充缺失值

K近邻算法可以基于相似样本的值来填充缺失值。

library(DMwR)

# 使用KNN填充缺失值
df_filled <- knnImputation(df, k = 5)

# 训练随机森林模型并进行预测
rf_model <- randomForest(target ~ ., data = df_filled)
predictions <- predict(rf_model, newdata)

4. 使用随机森林自带的缺失值处理功能

randomForest包允许在训练过程中处理缺失值。

# 直接使用randomForest处理缺失值
rf_model <- randomForest(target ~ ., data = df, na.action = na.roughfix)

# 对新数据进行预测
predictions <- predict(rf_model, newdata)

总结

处理缺失数据时，可以根据具体情况选择合适的方法。删除含有缺失值的行简单但可能损失信息；填充缺失值可以保留更多数据，但可能引入噪声。随机森林自带的缺失值处理功能也是一个方便的选择。

当存在缺失数据时，使用R随机森林对新数据进行预测

、、、

我想对包含NA行的新数据进行预测。我需要保持这些行在输入数据和预测输出中具有相同的行数。我如何使用R Caret训练的随机森林模型来做到这一点？我尝试了预测函数的参数na.action的不同值，例如： predictions = predict(RF_model, newdata = newdata, type = "prob", na.action= &quo

浏览 23提问于2021-03-22得票数 2

回答已采纳

1回答

对于严重的缺失，对随机森林的可用子集的归责与训练有什么好处？

、、、

我想在一个数据集上训练一个随机森林模型。我知道“标准方法”，我们将丢失的数据归算在训练集中，使用相同的估算规则对测试集进行计算，然后在所估算的训练集上训练随机森林模型，并使用相同的模型对测试集进行预测(可能需要多次估算)。我想要理解的是与以下方法的不同之处，我想使用该方法：根据缺失的模式对数据集进行<

浏览 3提问于2020-04-12得票数 1

1回答

为什么我的新数据会得到相同的预测？

、、

这是一个r中的随机森林模型。这是一个基于拉德布鲁克赔率的足球预测模型。它预测比赛的全时结果(FTR)。zmodel <- randomForest(traindata$FTR ~ traindata$LBH + traindata$LBD + traindata$LBA)然后，我<

浏览 9提问于2018-01-01得票数 1

回答已采纳

1回答

随机森林回归中缺失分类特征值处理指南

、

在使用随机森林回归器(或任何集成学习者)时，处理丢失的分类特征值的一般准则是什么？我知道scikit学习有归并函数(如mean...strategy或邻近)来推断缺失的值(数字)。但是，一个人如何处理缺失的分类价值:比如工业(石油、计算机、汽车、None)、专业(学士、硕士、博士、None)。如有任何建议，将不胜感激。

浏览 2提问于2016-05-13得票数 1

1回答

R分类

、、、

我有一个具有二进制目标的数据集(好客户端与坏客户端)。对于每个客户端，我有一个包含许多变量的行(~150)。我有以下问题：随机森林不支持缺失的值。从技术上讲，我知道如何告诉R来计算或忽略丢失的值(我在使用包<em

浏览 1提问于2016-06-12得票数 0

1回答

如何自动排除predict.randomForest中未见的新因素水平？

、、

我正在使用ramdomForest包创建一个随机森林模型。也许数据集是巨大的，有100多万个200+变量的观测结果。当使用样本数据训练随机森林时，我无法捕获所有变量的所有因素级别。因此，在使用predict()对验证集进行预测时，它会抛出一个错误，因为存在新的因素级别，而这些因素水平在训练数据

浏览 5提问于2015-09-28得票数 2

回答已采纳

1回答

随机森林回归分析-综合问题

浏览 0提问于2021-11-29得票数 2

1回答

如何在多重补偿中同时使用分类预测器和连续预测器[r]

、、、、

我有一个包含几个分类(名义)变量和一些连续变量的大型数据集。大多数连续变量都有缺失的数据。因此，我正在寻找R中的多重补偿代码(理想情况下是随机森林，因为有大量缺失数据)，它允许考虑连续和分类预测因子来估计多个连续变量。

浏览 1提问于2019-07-08得票数 0

1回答

我对预测随机森林中的新数据有疑问。

、

我有一个问题，当使用随机森林X_train，y_train，X_test，y_test。在对数据进行培训时，我会这样使用： 1. randomForest(y = y_test，x= X_test，ntree = 1

浏览 0提问于2019-05-20得票数 0

2回答

如何衡量预测的信心？

、

我建立了一个预测模型并根据新的数据进行了预测。现在我想指定我对这个预测值的信心值，例如，从0到1。贝叶斯方法可以通过后验给出置信区间。还有其他的/更好的吗？

浏览 0提问于2016-01-23得票数 6

1回答

关于使用游标符在RandomForest实现中使用预测

、、、、

概述现在我面临的一个问题是，系统期望列车集合中的所有功能都存在于无法实现的实时数据集中，因此无法对实时数据文本进行预测。machine现在使用上面的

浏览 1提问于2016-10-20得票数 0

1回答

提取与新观察值相关联的每棵树的末端节点

、、、

我想提取随机森林R实现的终端节点。根据我对随机森林的理解，你有一系列正交的树。当你预测一个新的观察值(在回归中)时，它会进入所有这些树，然后你对每一棵树的预测进行平均。如果我不想对这些相应的观测值进行平均，而是进行线性回归，我就需要一个与这个新观测值“相关”的观测值的列表。我已经看过了源代码，但还没有想出一个方

浏览 3提问于2013-02-04得票数 2

回答已采纳

1回答

基于最小化、差分进化和Basinhopping的模型优化

、、、

有两个csv文件，一个叫做'train.csv‘和'test.csv'；第一个是训练，第二个是预测二进制特征。要预测的二进制功能称为“Survived”，它不存在于测试csv文件中。为了对数据进行预处理，我将它们加载为pandas数据帧。测试数据帧没有'Survived‘特性，所以我创建了一个同名的常量值为-1的新列，以区分训练数据帧中相应列的0和1。然后我按行合并了它们。对于缺失</e

浏览 16提问于2020-11-22得票数 0

1回答

R RandomForest:新对象的邻近度

、、

我训练了一个随机的森林：当我想要预测新对象的y时，我使用如何根据已有的森林(模型)计算新对象(xnew)和训练集(x)之间的接近度？预测函数中的邻近度选项仅提供新对象中的代理(xnew)。我可以在组合数据集(x和xnew)上再次运行无监

浏览 1提问于2011-12-17得票数 2

回答已采纳

1回答

如何处理应该丢失的缺失值？

、、

我正试图用一个相当中等大小的数据集来预测贷款违约。我可能会使用logistic回归和随机森林。在这种情况下我该怎么办？我不能把缺失的值归责，但我也不能把它们空着。在数据集中，大约有80%的公司和20%的授权个人。

浏览 0提问于2022-04-19得票数 1

回答已采纳

1回答

如何在R中使用RandomForestSRC软件包寻找生存分析的准确性

、、

我正在使用R中的randomForestSRC包来创建生存森林。我有训练和测试数据集。通过使用训练数据集，生长树(随机森林)，并使用测试集，进行预测。现在我想要得到预测生存输出的精度，我可以从预测output.But中获得错误率参数，不知道这是不是模型的精度，或者我们必须计算它的精度。当我搜索相同的内容时，我可以看到正态随机<e

浏览 8提问于2016-11-14得票数 2

1回答

我是h2o新手，在r上使用这个包有困难。我使用的是一个训练和测试集5100和2300 obs，分别有18917个变量和一个二进制目标(0,1)，我运行了一个随机森林：test_h20<-as.h2o我是说最后一棵树是用来做最终预测的？另外，在randomForest包中，我可以使用返回我的varImp函数，以及绝对重要性，即特定于类的度量(计算为精度的平均下降)，我将其解释为变量重要性的类相对度量。

浏览 4提问于2016-07-08得票数 0

回答已采纳

1回答

如何在Python中使用R模型

、、、

我一直在做一个算法交易项目，在这个项目中，当实时交易系统使用Python时，我使用R来拟合使用历史数据的随机森林。我已经安装了一个我想在R中使用的模型，现在我想知道如何在Python系统中使用该模型进行预测。谢谢。

浏览 0提问于2020-02-12得票数 0

3回答

用什么预测模型来推断性别？

、、

我的数据如下：birth_date缺少634,990个值由于我有900 k项，这两项都是相当大的数量，所以我不能丢弃空行。对于birth_date，有人建议使用链式方程(小鼠)的多变量计算。我不知道我应该为gender使用什么预测模型。在未缺少的数据中，男性比女性多5倍。我使用这些数据来预测骑自行车的时间和最终目的

浏览 0提问于2019-05-07得票数 5

回答已采纳

1回答

随机森林结果的多元分析

、

事先对没有数据样本表示歉意：我建立了一个由128棵树组成的随机森林，没有调优，有1个二进制结果和4个可解释的连续变量。然后，我比较了这片森林的AUC与已经建立的森林，并对案例进行预测。我想弄清楚的是如何确定到底是什么赋予了这个新森林的预测能力。结果变量的单因素分析没有显着性发现。任何技术建议都将不胜感激。编辑:总之，我想对这四个解释变量进行多变量分析，以确定可能

浏览 6提问于2017-08-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当存在缺失数据时，使用R随机森林对新数据进行预测

基础概念

处理缺失数据的优势

类型与应用场景

遇到的问题及原因

解决方法

1. 删除含有缺失值的行

2. 使用均值/中位数/众数填充缺失值

3. 使用KNN填充缺失值

4. 使用随机森林自带的缺失值处理功能

总结

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐