将tidymodel拟合模型应用于新的、未标记的数据

基础概念

tidymodels 是一个用于构建和评估统计和机器学习模型的 R 语言包集合。它提供了一套统一的接口和工具，使得模型的构建、训练、验证和部署变得更加容易和一致。

类型

tidymodels 包含多个子包，每个子包专注于不同的任务：

recipes：用于数据预处理和特征工程。
parsnip：用于定义和训练模型。
yardstick：用于模型评估和性能度量。
rsample：用于数据分割和交叉验证。
tune：用于模型调参。

应用场景

tidymodels 适用于各种数据分析和机器学习任务，包括但不限于：

预测建模：如销售预测、信用评分等。
分类建模：如垃圾邮件检测、疾病诊断等。
回归建模：如房价预测、股票价格预测等。

将模型应用于新的、未标记的数据

假设你已经使用 tidymodels 构建了一个模型，并且现在需要将该模型应用于新的、未标记的数据。以下是一个示例代码：

# 加载必要的包
library(tidymodels)
library(recipes)
library(parsnip)
library(yardstick)

# 假设你已经有一个训练好的模型 model
# model <- ...

# 加载新的、未标记的数据
new_data <- read.csv("path_to_new_data.csv")

# 使用训练好的模型进行预测
predictions <- predict(model, new_data)

# 查看预测结果
print(predictions)

可能遇到的问题及解决方法

数据预处理不一致：如果在训练模型时进行了数据预处理（如缺失值处理、特征缩放等），在应用模型时也需要对新的数据进行相同的预处理。
数据预处理不一致：如果在训练模型时进行了数据预处理（如缺失值处理、特征缩放等），在应用模型时也需要对新的数据进行相同的预处理。
模型不兼容：确保新的数据与训练数据具有相同的特征列和数据类型。
模型不兼容：确保新的数据与训练数据具有相同的特征列和数据类型。
模型过拟合：如果模型在训练数据上表现很好，但在新的数据上表现不佳，可能是由于过拟合。可以通过增加更多的训练数据、调整模型复杂度或使用正则化方法来解决。
模型过拟合：如果模型在训练数据上表现很好，但在新的数据上表现不佳，可能是由于过拟合。可以通过增加更多的训练数据、调整模型复杂度或使用正则化方法来解决。

参考链接

通过以上步骤和方法，你可以将 tidymodels 拟合的模型应用于新的、未标记的数据，并解决可能遇到的问题。

将tidymodel拟合模型应用于新的、未标记的数据

、、、

例如，https://tune.tidymodels.org/reference/last规定“下一步是使用整个训练集进行拟合，并使用测试数据验证性能。”我想用训练/测试数据调优一个模型，创建last_fit，然后将它应用于性能无法验证的数据，因为它没有标签/没有结果。在我的特殊情况下，我正在创建一个分类模型来预测特定的产品订阅是否会流失或续订。提前，比如

浏览 15提问于2021-11-22得票数 0

2回答

主动学习中的过度适应

、、、

在应用主动学习抽样技术之前，如何确保在小数据集上训练的初始模型不会受到过度拟合的影响？因为我将使用这个模型来选择新的未标记样本。

浏览 0提问于2021-06-24得票数 5

回答已采纳

2回答

在进行监督学习的同时，我们是否需要测试集中的标签？

我有一个数据集，我想进行监督学习。训练集有标签，但测试集没有标签。

浏览 0提问于2021-06-25得票数 3

1回答

如何评估分类器在测试数据上的性能？

、、

我正在使用scikit制作一个有监督的分类器，目前我正在调整它，以便在标记的数据上有很好的准确性。但是，我如何估计它在测试数据(未标记)上的表现如何？另外，我如何找出我是否开始过多地安装分类器？

浏览 0提问于2014-06-20得票数 2

1回答

推理时的单图像特征约简: SVM

、、、、

pp = PCA(n_components=400).fit(features)主成分分析需要m x n数据集来确定方差。但在推理时，我只有一幅图像和相应的一维特征向量。我想知道如何在推理时减少特征向量以匹配训练维数。或者，如果有人可以提出一些其他的降维技术，可用于单一图像将是非常值得赞赏的。

浏览 0提问于2020-07-30得票数 0

1回答

R-基于现有的lm，用预测函数确定新数据的拟合优度

、、、、

我正在尝试将现有模型应用于新的数据集。我试着用一个例子来解释它。我想知道一个优雅的方式来确定拟合的好坏会是什么样子。summary(model.lm) 现

浏览 6提问于2017-08-21得票数 1

回答已采纳

2回答

在Python中将KNN从小型监督数据集应用到大型无监督数据集

、、

我用Python在一个包含大约200个样本的小监督数据集上训练和测试了一个KNN模型。我想将这些结果应用于一个包含数千个样本的更大的无监督数据集。我的问题是:有没有一种方法可以使用小的监督数据集来拟合KNN模型，然后更改大的无监督数据集的K值？我不想通过使用较小数据集中的低K值来过度拟

浏览 34提问于2019-01-31得票数 0

回答已采纳

1回答

一旦在R中构建，重用ts模型到更新的数据集(预测包)

、、、、

我是R编程的新手，但我找不到任何关于我的问题……fcast2 <- forecast ( Arima ( x = extendedSeries , model =

浏览 0提问于2012-09-26得票数 2

回答已采纳

1回答

要部署的最终模型的预处理

、、、、

通常，对于ML工作流，我们导入数据(X和y)，将X和y划分为train、valid和test，对train、valid和test的数据进行预处理(缩放、编码、计算nan值等)，执行HP调优，在得到最佳HP模型后，将最终模型拟合到整个数据集(即X和y)。现在的问题是，X和y不是预处理的，因为只有train、valid和test是预处理的。因此，当在X和y上拟合最终<

浏览 0提问于2021-11-29得票数 1

回答已采纳

1回答

当测试集分布不同时，分类任务、结果不同

、、、

多类问题(有12类)编辑数据增强是与角函数，只是旋转和翻转。我只增加了训练集因为我们班的数据非常少，所以我做了一个60 %的训练/ 20%的验证/20%的测试集(即B类我得到30个训练数据/10个验证数据/10个测试数据)。然后，我做了

浏览 0提问于2019-06-04得票数 0

回答已采纳

1回答

如何使用机器学习模型来处理新数据？

我是这个数据科学领域的新手。我有一个问题要将随机森林应用于新数据。我有这张桌子。我使用随机森林构建了一个模型，并使用验证集(8/2拆分)对其进行了测试。我认为上面的模型可以用于新的数据。这是数据的一个例子。数据结构和变量含义相同，但变量个数不同。0.3 0.05 0.05- 0.

浏览 20提问于2020-01-07得票数 0

回答已采纳

7回答

标记数据和未标记数据之间有什么区别？

在Sebastian的视频中，他说监督学习与“标记”数据一起工作，而非监督学习则与“未标记”数据一起工作。他这么说是什么意思？谷歌搜索“标记的与未标记的数据”会返回一堆关于这一主题的学术论文。我只想知道基本的区别。

浏览 0提问于2013-10-03得票数 74

回答已采纳

1回答

Python - wrrong fit

、、、、

我试图复制一个已知的拟合结果(发表在期刊上)：将幂律模型应用于数据。从下面的图中可以看出，我能够通过使用已知的最佳拟合参数来再现结果。<Plot:来自curve_fit和lmfit的不正确的拟合> 案子-A回来了， OptimizeWarning: Covariance of the parameters could not beestimated (如果省略几个初始数据<

浏览 2提问于2020-01-14得票数 1

回答已采纳

1回答

Tensorflow:结合LSTM模型中的损失函数进行领域自适应

、、、、

这是关于预测帕金森病的，因为我想建立一个独立于患者的LSTM模型。目前，我已经使用TensorFlow和我自己的损失函数实现了它。因为我计划在每批数据中引入标记的训练数据和未标记的训练数据来训练模型。我想将我自己的损失函数应用于标记和未标记的训练数据

浏览 0提问于2018-03-05得票数 0

1回答

使用持久模型时转换测试数据

、、

我对数据科学非常陌生，只有慢慢地遵循必要的步骤才能获得有效的结果--学习。据我所知，您对培训数据进行了拟合和转换，并且只转换了测试数据(使用前面的拟合所检索的参数)。对于我的项目，一个持久的模型是必要的，因为我使用joblib导出经过训练的模型。当稍后将模型应用于测试数据时

浏览 0提问于2019-09-19得票数 1

回答已采纳

1回答

帮助理解嵌套交叉验证

、

根据我在网上所读到的，嵌套简历的工作原理如下：有一个外部循环，在测试集上，我们测量在内部折叠中获胜的模型的性能。我无法理解的是，因为我们在运行的每个外循环中都找到了超参数，所以我们可以在每个循环的测

浏览 0提问于2019-08-08得票数 5

回答已采纳

1回答

rpart节点指定

、、

是否可以为拟合的rpart树提取节点赋值？当我将模型应用于新数据时会发生什么？考虑到R的强大功能，我想有一个简单的解决方案。

浏览 0提问于2012-03-21得票数 2

回答已采纳

1回答

我在使用R中的spatstat库。我有几个点模式对象是从我自己的dataset构建的。点模式只包含其中点的x和y坐标。我想用Gibbs过程和Strauss交互来拟合点模式，以建立一个模型并模拟类似的点模式。如果我一次使用一个点模式，我就可以使用ppm函数来实现这个目的。我在从函数返回的ppm对象上使用了rmhmodel函数。rmhmodel函数给出了参数beta、gamma和r，需要在rStrauss函数中进一步使用这些参数来模拟新的</em

浏览 4提问于2020-08-27得票数 1

回答已采纳

1回答

验证损失

、

我很难把我的大脑围绕着验证失败。这是我的理解，损失是计算在前馈结束在一个NeuralNet和用于反向传播，以更新权重。或者，它仅仅是衡量你在当前时代观察到的距离有多远？

浏览 0提问于2018-08-24得票数 7

回答已采纳

1回答

Keras中的半监督训练

、

我想知道以下模型在Keras中是否可行，或者是否需要下拉到tensorflow。我们的想法是像往常一样，<

浏览 5提问于2018-09-28得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将tidymodel拟合模型应用于新的、未标记的数据

基础概念

相关优势

类型

应用场景

将模型应用于新的、未标记的数据

可能遇到的问题及解决方法

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐