在Time Series tasks中,我遇到了一个关于将数据拆分成训练和测试集的问题。我知道数据不能被混洗,因为保持数据的时间性很重要,所以我们不能创建能够展望未来的场景。然而,当我打乱数据(用于实验)时,我得到了一个离谱的高R平方分数。是的,R平方是用测试集评估的。有人能简单地解释一下为什么会这样吗?为什么在时间序列中混洗训练和测试数据会产生高R平方<
我正在尝试创建一个DataFrame,以检查不同的洗牌是否会影响模型的r平方值,用于训练以及测试数据集。我试着运行for循环来做到这一点,但得到了错误。我对如何使用pd.DataFrame方法创建两列感到困惑,其中索引是该随机状态的随机状态值,而r-平方值用于训练和测试。我写的代码:for i in range(0,100):
X_train,X_test,y_train,y_test = t