具有交叉验证的ngram文本模型

、、

在ngram模型(字符ngram或词袋)中，我们需要确保测试数据的词汇不用于拟合或训练模型。这就是sklearn TfidfVectorizer函数对两个函数(拟合和变换)所做的事情。所以，如果我有一个sklearn Pipeline模型： model = Pipeline([ ('svc',SVC()) ]) 并将其传递给<em

浏览 21提问于2019-03-08得票数 0

回答已采纳

3回答

如何评价和解释这一机器学习中的训练模型？

、、、、

在每一组中，我使用90%的数据来建立ngram模型。然后，在同一组的其他10%数据上测试此ngram模型。结果精度在10%以下。其他9组采用相同的方法(分别建立模型，并分别在该组剩余的10%数据上进行测试)。所有结果的准确度都在10%左右。(这是10倍交叉验证吗？)案例2：首先建立了一个基于全数据集(数据A)约8000字的ngram模型

浏览 5提问于2012-05-23得票数 0

回答已采纳

1回答

我是NLP的新手，这让我有点困惑。我试图在我的数据集上使用SVC进行文本分类。我有一个6个类的不平衡数据集。这篇文章是健康、体育、文化、经济、科学和网络课程的新闻。我用TF-以色列国防军进行矢量化。预处理步骤：lower-case所有文本并删除stop-words。因为我的文本是德语的，所以我没有使用lemmatization。我的第一次尝试： from sklearn.model_selection import

浏览 1提问于2020-12-04得票数 0

回答已采纳

1回答

获得良好的交叉验证分数，但Roc_auc分数非常低

、、、

我对此非常陌生，所以任何类型的信息都会有所帮助。抱歉，如果我问了一个非常琐碎的问题。我正在处理一个中等大小的数据集，其中有很多零。我们已经应用了很多模型，k=10的cv-skf得分已经超过了0.85，但roc_auc得分却停留在0.5左右。我正在使用sklearn。下面是代码片段。

浏览 0提问于2016-03-25得票数 0

1回答

区分过拟合与良好预测

、、、、

我有一个很小的文本样本，我试图预测与它们相关的值。我已经使用sklearn计算tf-以色列国防军，并将其插入回归模型中进行预测。这些信息是通过从cross_validation.LeaveOneOut(X.shape[0], indices=True)获得的保留一次交叉验证获得的： using ngrams (n=1):使用ngram (n=300)代替unigram (n=1)，会出现类似的结果，这显然是不正确的。

浏览 2提问于2012-09-03得票数 33

回答已采纳

1回答

交叉验证试验与训练误差

、

我偶然发现了这样的流程图：在流程图下面，如下所示：他们只提到交叉验证</em

浏览 0提问于2019-09-09得票数 1

1回答

栅栏模型的验证？

、

我构建了一个栅栏模型，然后使用该模型通过预测命令从已知数据点预测到未知数据点。有没有办法验证模型和这些预测？我是否必须分两部分来做这件事，例如使用模型的二项式部分的敏感性和特异性？关于如何评估此模型的有效性，还有其他想法吗？

浏览 1提问于2016-11-14得票数 0

1回答

如何在python/sklearn中交叉验证来自随机森林的预测？

、、

请有人告诉我，如果这是正确的方法，计算交叉验证的精度我的分类器？我将我的数据集划分为训练数据的xtrain和ytrain，以及测试集的xtest & ytest。构建模型：适合于训练集的：，这是我不确定的部分： scores= cross_val_

浏览 8提问于2015-07-04得票数 3

1回答

什么时候对测试数据也进行模型的训练是个好主意？

、、、

我有一个小的受限制的数据集，它不是很小，但是如果我有更多的数据，它的准确性会更好。我把它分割成训练和测试数据集: 85%/15%。我选择了神经网络模型，并训练了它，测量损失，它是好的。我是否应该对测试数据进行额外的培训，因为这样我就能获得更好的准确性。

浏览 0提问于2018-03-10得票数 0

1回答

如何在TensorFlow中提高CNN的预测能力？

、、、

我在TensorFlow中使用具有两个卷积层的CNN，一个完全连接的层和一个线性层来预测对象的大小。标签是大小，特征是图像。两种方法的准确率都有所提高，但交叉验证准确率的提高速度较慢。考虑到精度上的差异是由于模型<

浏览 3提问于2018-09-07得票数 0

1回答

如何在matlab中选择交叉验证的最佳模型？

、、

我有两个数据集，我想通过其中一个训练支持向量机分类模型(fitcsvm)，然后预测另一个的标签。我使用10倍交叉验证(crossval)来训练我的模型，所以我有10个不同的模型。我的问题是，这些模型中哪一个是最适合预测的，我如何才能找到它？这是我的代码：CVMdl = crossval(Mdl);

浏览 2提问于2020-10-23得票数 0

回答已采纳

1回答

何时使用交叉验证？

、、

Cross-validation 嗨，我正在使用Weka在我的MSc论文中部署机器学习模型。我已经注意到，当我在训练数据集中使用10倍交叉验证时，与在整个数据集上没有交叉验证的情况下训练模型相比，我得到了较低的评估指标，如果我在测试数据集上测试该模型时获得更好的性能，这将是有意义的，然而，它保持相同的性能例如，我为一个回归问题训练了一个随机森林模型</em

浏览 0提问于2021-01-23得票数 0

1回答

双数据源LSTM神经网络

、、、

我有以下配置:一个lstm网络，接收大小为2的n克文本。下面是一个简单的原理图：经过一些测试后，我注意到在某些类中，当我使用大小为3的ngram时，我的准确性有了很大提高。现在，我想训练一个同时具有两个ngram大小的新的LSTM神经网络，如下面的原理图：我如何提供数据并建立这个模型，使用keras来执行这个任务？

浏览 0提问于2018-10-27得票数 0

回答已采纳

2回答

在损失函数中添加模型复杂性惩罚允许您跳过交叉验证吗？

我的理解是，选择小型模型，即有一个多目标函数，为模型的精确性和简单性进行优化，会自动处理数据过度拟合的危险。对于我的用例来说，跳过冗长的交叉验证过程是非常方便的。

浏览 0提问于2021-04-05得票数 1

3回答

检验顾问提供的模型的准确性

、、、

我的公司最近聘请了一家咨询公司来开发一个预测模型来检测有缺陷的作品。有人建议，我可以给咨询公司2000-2015年的数据，并保留2016年的数据，供我们自己核对。然而，一个对2016年数据<

浏览 0提问于2016-11-30得票数 3

回答已采纳

2回答

交叉验证在多项式回归中的应用

、、、、

我有两个文本文件，其中包含我的数据。X轴上的一个文本文件，Y轴上的另一个文本文件，然后使用python的散乱函数进行数据可视化，然后用python的polyfit函数得到曲线，它可以拟合我们需要编写的多项式的多项式度。2或3现在让我们考虑，我得到了4个这样的方程，分别是2,3,4,5。现在我的问题来了。在我得到的所有方程中，我如何选择最适合我的数

浏览 0提问于2016-04-21得票数 0

2回答

如何使用RBM提高文本分类的准确率？

、、、、

我正在学习文本分类，我使用自己的语料库和线性回归进行分类，如下所示：classifierclassifier.fit(training_matrix, y_train)我想用scikit learn提供的受限博尔兹曼机器来增加分类报告有人能帮我增加这是我到目前为止尝试的，提前谢谢： vectorizer

浏览 5提问于2015-02-04得票数 2

2回答

我应该为我在文本中找到的每个特定单词创建一个功能，还是为所有它们创建一个功能？

、、、

我现在正在为我的分类任务做特性工程。在我的dataframe中，我有一个包含文本消息的列。我决定创建一个二进制功能，它取决于文本中是否有"call“、"phone”、"mobile“、"@gmail”、"mail“"facebook”等词。但是现在我想知道是为每个单词(或一组单词)创建单独的二进制特性，还是为所有这些单词创建一个二进制特性。如何检查哪个解决方案更好。有什么衡量标准吗?人们在实践中通常会做些什么。谢谢)

浏览 0提问于2022-01-26得票数 1

1回答

交叉验证Vs。列车验证测试续

、

交叉验证Vs.列车验证测试训练次数为k次，每次忽略训练集的不同部分。通常，这些k模型的误差是平均的。这是对要测试的每个模型参数进行的，并且选择误差最小的模型。选择平均误差最小的参数，从K模型中找出

浏览 0提问于2019-09-27得票数 4

3回答

使用joblib在sklearn中重用cross_val_score拟合的模型

、、

(filename, "pkl") os.remove(filename) returnalg = joblib.load我不能重用拟合的模型来计算<

浏览 2提问于2016-03-25得票数 11

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何评价和解释这一机器学习中的训练模型？

如何改进我对德语文本的多类文本分类？

获得良好的交叉验证分数，但Roc_auc分数非常低

区分过拟合与良好预测

交叉验证试验与训练误差

栅栏模型的验证？

如何在python/sklearn中交叉验证来自随机森林的预测？

什么时候对测试数据也进行模型的训练是个好主意？

如何在TensorFlow中提高CNN的预测能力？

如何在matlab中选择交叉验证的最佳模型？

何时使用交叉验证？

双数据源LSTM神经网络

在损失函数中添加模型复杂性惩罚允许您跳过交叉验证吗？

检验顾问提供的模型的准确性

交叉验证在多项式回归中的应用

如何使用RBM提高文本分类的准确率？

我应该为我在文本中找到的每个特定单词创建一个功能，还是为所有它们创建一个功能？

交叉验证Vs。列车验证测试续

使用joblib在sklearn中重用cross_val_score拟合的模型

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐