我有一个包含4个预测变量X1、X2、X3、X4和一个响应变量Y的数据集。我被要求检查这些变量之间的相关性并查看它们之间的关系,然后使用线性模型对它们进行拟合。
没有分割的训练集:测试集是给定的。我有一个包含10000个样本的数据集。我计划将这些数据按80:20的比例分割,分别用于培训和测试。
现在,我怀疑在数据被分割之后是否应该找到相关性,还是检查与整个数据集的相关性更好?性病的方法是什么?
我要用R程序来做同样的事情。
发布于 2020-02-20 02:14:44
我相信您希望评估变量之间的关联,所以在拆分之前最好在完整的数据集上执行相关性。此外,它将有助于选择特征变量,以防止数据泄漏。https://towardsdatascience.com/preventing-data-leakage-in-your-machine-learning-model-9ae54b3cd1fb
https://datascience.stackexchange.com/questions/68395
复制