首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何将数据集分解为训练和测试,同时保留二进制数据的比例(即一些药物有效,而有些则无效)?

如何将数据集分解为训练和测试,同时保留二进制数据的比例(即一些药物有效,而有些则无效)?
EN

Stack Overflow用户
提问于 2022-05-04 12:35:28
回答 1查看 28关注 0票数 0

我有一个药物数据集,相关的化学特征,以及它们是“应答”还是“无反应”。我需要确保一旦我将数据集分成测试和训练,它们都有相同比例的响应性:无响应性。我知道如何将训练率为80%,测试率为20%的数据随机分开。不知道如何在这里进行必要的分层取样,这就是我要使用的- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html

EN

回答 1

Stack Overflow用户

发布于 2022-05-04 13:48:39

train_test_split函数已经有了一个参数,允许您保持y的比例。参数是stratify;在文档中定义为“如果没有,数据以分层的方式分割,使用这个类标签”。

代码的一个例子是:

代码语言:javascript
运行
复制
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72113103

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档