在Time Series tasks中,我遇到了一个关于将数据拆分成训练和测试集的问题。我知道数据不能被混洗,因为保持数据的时间性很重要,所以我们不能创建能够展望未来的场景。然而,当我打乱数据(用于实验)时,我得到了一个离谱的高R平方分数。是的,R平方是用测试集评估的。有人能简单地解释一下为什么会这样吗?为什么在时间序列中混洗训练和测试数据会产生高R平方分数?
我有一个相对较大的数据集,它是非常异构的。在模型的训练过程中,我已经使用了shuffle my dataset,如文档示例: (但无法将其全部混洗,因为它会占用太多内存),我还将我的数据集分成多个小碎片,每个碎片大小相等。然而,我有理由认为这种“近似”的混洗是不够的,我还认为馈送已经混洗的数据将提高训练速度。所以现在我的问题是:在我将我的数据集分成Tfrecord
我正在尝试理解如何使用交叉验证函数sklearn.model_selection.KFold。如果我定义(就像在这个tutorial中) from sklearn.model_selection import KFold
You should leave random_state to its default (None),
在此数据集上,当我使用tf.data.shuffle(buffer_size = some_number)进行混洗时,使用消息Filling Up the shuffle buffer进行混洗需要花费大量时间我的问题是,是否有一种方法可以通过使用列1/列2的索引来混洗数据集,因为这可能不会花费太多时间进行混洗,因为它只是索引。