首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当使用交叉验证时,有没有一种方法可以确保每个文件夹至少包含几个真实类的实例?

当使用交叉验证时,有没有一种方法可以确保每个文件夹至少包含几个真实类的实例?
EN

Stack Overflow用户
提问于 2019-03-07 06:34:10
回答 1查看 56关注 0票数 0

我正在使用插入符号进行交叉折叠验证来拟合模型:

代码语言:javascript
复制
library(caret)

## tuning & parameters
set.seed(123)
train_control <- trainControl(
  method = "cv",
  number = 5,
  savePredictions = TRUE,
  verboseIter = TRUE,
  classProbs = TRUE,
  summaryFunction = my_summary
)

linear_model = train(
  x = select(training_data, Avg_Load_Time),
  y = target,
  trControl = train_control,
  method = "glm", # logistic regression
  family = "binomial",
  metric = "ROC"
)

问题是,在大约5K行中,我只有大约120个真实的案例。这是在使用GLM时通过插入符号"glm.fit:适合的概率数字0或1发生“抛出的警告消息。

有没有一个我可以设置的参数或者某种方法来确保每个折叠都有一些真实的情况?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-07 06:39:57

当您对数据进行混洗并且每个类都有足够的示例时,这会更容易。

如果没有足够的示例,可以使用SMOTE (合成少数过采样技术)增加少数类的大小。在R.中打包smotefamily

然后,您将能够进行5折或10折交叉验证,而不会引发任何问题。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55033278

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档