腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(46)
视频
沙龙
2
回答
获取
所选
特征
名称
TFIDF
矢
量器
、
、
我使用的是python,我想要获得大量数据的
TFIDF
表示,我使用以下代码将文档转换为
TFIDF
格式。from sklearn.feature_extraction.text import TfidfVectorizer min_df=
tfidf
_vectorizer.fit_transform(df['text']) 这里我传递了一个参数max_features。矢
量器
将选择最佳
特征
并
浏览 9
提问于2017-03-01
得票数 18
回答已采纳
3
回答
如何为python中的每一行提取关键字?
、
、
、
、
我需要从每一行提取顶部关键字使用
TFIDF
。我试着编写以下代码Y = df['Text'].apply(lambdax:
tfidf
.fit_transform(x)) 我得到下面的错误Iterable对原始文本文档的预期,字符串对象收到。
浏览 1
提问于2020-04-20
得票数 0
2
回答
我如何使用TF*国防军分数作为我的机器学习模型?
、
、
我已经在我的数据集的‘广告主题线’专栏上申请了TF*国防军。对于每个广告主题行,我得到相同的输出:首先,我无法理解输出。右边提到TF*国防军值,但括号中的数字究竟是多少? 我打算用这些作为我的logistic回归模型进行分类。如何将这些值准确地输入到算法中?
浏览 0
提问于2019-03-23
得票数 1
3
回答
向
量器
fit_transform在sklearn中是如何工作的?
、
、
我正在尝试理解以下代码 X = vectorizer.fit_transform(
浏览 0
提问于2017-12-20
得票数 6
1
回答
如何在sklearn流水线中通过
特征
消除来选择
特征
名称
?
、
、
, n_features_to_select=500, step=1) ('features', FeatureUnion([ ('clf', LinearSVC1),y_pred = pipeline.predict(X_dev) 如何
获取
RFE
所选
功能的功能
名称</em
浏览 3
提问于2016-04-15
得票数 16
回答已采纳
1
回答
文本分类错误分类?
、
、
、
我也做了预处理,
特征
工程使用TF-以色列国防军,然后通过三个分类算法,即逻辑回归,支持向量机和决策树输入到管道数据集。
浏览 0
提问于2021-05-26
得票数 0
5
回答
Scikit-Learn的管道:一个稀疏的矩阵被传递,但是需要密集的数据
、
、
、
我发现很难理解如何修复我创建的管道(阅读:主要是从教程中粘贴)。它是python 3.4.2:df = DataFrame.from_records(train) pipeline.fit(numpy.asarray(df[0]), numpy.asarray(df[
浏览 13
提问于2015-02-07
得票数 49
回答已采纳
2
回答
Python -- SciKit --分类器的文本
特征
提取
、
、
、
、
现在出现了针对每个类别
获取
最频繁的单词的要求。简而言之,我必须从学习的模型中提取
特征
。通过研究,我只了解了如何在学习时提取文本
特征
。但是一旦学会了,我只有模型文件(.pkl),是否可以加载分类器并从中提取
特征
? 是否有可能获得针对每个类别或类别的最频繁的术语?
浏览 1
提问于2015-03-09
得票数 4
2
回答
聚类中的K均聚类顶项
、
、
、
对于集群文档,我使用python聚类算法。我创建了一个术语文档矩阵 from sklearn.cluster import KMeans stop_words='english') X = vectorizer.fit_transf
浏览 2
提问于2017-11-23
得票数 4
回答已采纳
2
回答
“管道”对象在scikit-learn中没有属性'get_feature_names‘
、
、
、
我的整个代码如下所示:mini_kmeans_batchdef count_
tfidf
_vectorizer(self,contents): vectorizer = make_pipeline
浏览 9
提问于2017-06-21
得票数 2
回答已采纳
3
回答
按文档提取tf-idf to
特征
的正确方法是什么?
、
提取顶级
特征
的quanteda方法是什么,即文档的最大tf-IDF值?我确实希望在计算tf-idf时将整个语料库作为参考。
浏览 26
提问于2019-12-03
得票数 0
回答已采纳
1
回答
基于logistic回归的
特征
选择
、
、
我正在使用Logistic回归来执行
特征
选择(在包含1,930,388行和88个特性的数据集上)。如果我对保留的数据进行模型测试,准确率仅在60%以上.响应变量分布均匀。或者我应该试着提高模型的精度,尽管我的最终目标不是提高精度,而是只获得重要的
特征
。
浏览 1
提问于2015-10-26
得票数 1
1
回答
绘制K均值聚类中每个类的WordCloud图
、
、
、
我有一组BOW features,我也知道要使用的最好的n_clusters。我需要帮助来绘制每个集群的WordCloud,以便我们可以一次性分析每个集群中的单词。 请参考任何一组弓功能,并采取任何n_cluster,我会把它与我的问题。 请考虑以下功能: ['aa', 'aahhhs', 'aback', 'abandon', 'abates', 'abbott', 'abby', 'abdominal', 'abiding', 'abil
浏览 18
提问于2019-05-09
得票数 1
1
回答
400,000+语料库中独特词的TF-国防军?
、
、
、
我有一个有400,000多个独特单词的语料库。我想为这个语料库建立一个TF-国防军矩阵。我曾尝试在我的笔记本电脑(16 so )和Google上这样做,但由于内存限制,我无法做到这一点。做这件事最好的方法是什么?
浏览 0
提问于2021-09-21
得票数 1
1
回答
有没有办法从SciKit-Learn中找到K-means聚类中的数据点?
、
、
我使用TF-IDF向
量器
将文本注释转换为向量
特征
,然后运行K-means聚类将我的数据分成多个簇。我有一组清晰的簇。然而,我一直在努力寻找一种方法来找出哪些单词进入了哪些聚类。我知道如何
获取
特征
标签/
名称
,但我希望看到每个
特征
下的实际数据点,然后将它们转换回原始单词。我使用的是Python和Scikit-Learn的K-means算法。
浏览 7
提问于2020-08-23
得票数 0
2
回答
查找套索模型中使用的
特征
、
、
如何在sklearn/ Python中定义这些功能的
名称
?
浏览 17
提问于2021-11-08
得票数 0
回答已采纳
4
回答
Angular 4:如何在datalist中
获取
选定值的索引
、
、
在项目列表(来自数据库)中,用户可以根据以下几个标准选择项目:通过参考号、
名称
、制造商
名称
…… 如果用户按参考号选择,将显示带有来自listOfItems的参考号列表的输入列表,如果他按
名称
选择,将显示带有来自listOfItems的
名称
列表的输入列表,等等。例如,当用户在datalist中按
名称
选择一项并进行验证时,我希望在另一个组件中发送并显示它及其
特征
。因此,要知道选择了哪一项并访问其所有
特征
,我需要在datalist中
获取
所选
浏览 146
提问于2018-07-31
得票数 0
2
回答
python:如何从feature_importances
获取
真实的特性
名称
、
、
、
feat_loc_vectorizer.fit(venue_feature_start)orig_ven_feat = orig_
tfidf
.fit_transform(feat_loc_orig_mat.tocsr()) importances = clf.feature_im
浏览 4
提问于2015-05-20
得票数 5
回答已采纳
5
回答
在ngram中搜索类似文档的最佳方法
、
、
、
我有一个数据库,里面有我提取的大约200份文件。我希望在我的数据库中找到与查询文档最相似的文档。换句话说,我想在数据库中找到与查询文档共享最多数量的文档。现在,我可以逐一比较一下,但是如果N很大的话,这需要O(N)时间,而且很昂贵。我想知道在进行有效的相似搜索时是否有任何有效的数据结构或方法。谢谢
浏览 0
提问于2015-11-17
得票数 8
2
回答
scikit-学习:将数据整合到块中,而不是一次将其全部拟合起来。
、
、
我现在需要一个简单的词包
特征
,所以我尝试使用TfidfVectorizer/HashingVectorizer/CountVectorizer来获得
特征
向量。但是,一次处理整个列车数据以获得
特征
向量会导致numpy/scipy中的内存错误(取决于我使用的向
量器
)。当从原始文本中提取文本特性时:如果我将数据以块的形式匹配到向
量器
中,这是否与一次性拟合整个数据相同?
浏览 2
提问于2015-08-03
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
通过Python进行文本数据分析和自然语言处理
NLP之词袋模型和TF-IDF模型
机器学习在web攻击检测中的应用实践
久等了!GE磁共振参数解析,我真的太需要了!
无人超市的实现使用了哪些技术(二)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券