社区首页 >问答首页 >数据集中是否应该有“正常”抽样数据?

数据集中是否应该有“正常”抽样数据?
EN

Data Science用户
提问于 2019-10-04 03:37:55
回答 1查看 17关注 0票数 0

我正忙着做一个项目,找出为什么普通家庭的孩子在学校表现不好的原因。

我有一个数据集,由生活在中产阶级家庭环境中的孩子组成,他们可以使用必要的设施,孩子没有患上任何疾病,但在学校成绩不及格。

对于生活条件差的孩子来说,在学校遇到问题是可以理解的,但是对于那些在学校里有生活必需品的孩子来说,至少在学校里,他们需要更多的研究。

既然我有了这个数据集,那么在数据集中添加具有相同生活环境(在学校做得还不错)的孩子有意义吗?如果这有帮助的话,我计划使用SOM进行数据挖掘。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-10-04 03:49:58

简而言之,是的。

如果你的目标是了解糟糕的学校表现背后的驱动因素(甚至是模型+预测学校表现),你将需要数据集中的“正面”和“负面”结果。

当然,你需要注意的是,积极的结果和负面的结果是“相似的”,以避免在你的数据中引入扭曲--即确保你正在添加的数据来自中产阶级家庭,能够获得设施等等。

您还应该在最终数据集中考虑正负结果的比率,因为理想情况下,您希望避免不平衡的数据。但是,如果有必要,有一些技术和方法可以处理不平衡的数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/61252

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文