腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(347)
视频
沙龙
1
回答
应用
gensim
LDA
主题
建模
后
,如
何为
每个
主题
获取
概率
最高
的
文档
,并
将其
保
存在
csv
文件
中
?
python
、
csv
、
gensim
、
lda
、
topic-modeling
我使用
gensim
LDA
Topic Modeling从语料库
中
获取
相关
主题
。现在,我希望获得代表
每个
主题
的
前20个
文档
:在一个
主题
中
概率
最高
的
文档
。我想将它们保
存在
CSV
文件
中
,格式如下:
主题
ID、
主题
单词、
主题
中<e
浏览 49
提问于2019-06-02
得票数 3
1
回答
Python
gensim
LDA
:在获得
主题
后
将
主题
添加到
文档
中
python
、
gensim
、
lda
我正在使用
gensim
的
LDA
来执行
主题
建模
。我知道如何将原始文本数据转换为语料库
并
获取
主题
。但是,在我得到
主题
之后,我是否可以将
主题
结果标记或添加回原始
文档
?1
中
每个
主题
的
分布情况。现在,我
的
问题是:如何
将其
转换为
每个
主题
的
数值变量及其对
浏览 2
提问于2017-10-04
得票数 4
2
回答
gensim
的
get_document_topics方法返回
的
概率
加起来不等于一个
text-mining
、
gensim
、
lda
、
topic-modeling
有时,它会返回所有
主题
的
概率
,而且一切都很好,但有时它只返回少数几个
主题
的
概率
,它们加起来不等于一个,这似乎取决于
文档
。一般来说,当它返回很少
的
主题
时,其
概率
加起来大约是80%,那么返回
的
仅仅是最相关
的
主题
吗?有没有办法强迫它返回所有的
概率
? 也许我遗漏了一些东西,但是我找不到方法参数
的
任何
文档
。
浏览 4
提问于2017-06-15
得票数 5
回答已采纳
1
回答
数据
中
每一行
的
主题
模型
python
、
pandas
、
nlp
、
gensim
我希望遍历每一行(也称为
文档
),并进行
主题
模型,然后将
每个
主题
中
的
前20个单词提取到
csv
中
。我正在使用
Gensim
. i+=1
浏览 1
提问于2022-04-30
得票数 0
1
回答
Tweet分类为
主题
-如何处理数据
machine-learning
、
nlp
、
r
、
topic-model
、
lda
由于这个R包计算了三个度量标准(“CaoJuan2009”、"Arun2010“、"Deveaud2014")
的
值,我正在使用
LDA
进行
主题
建模
,以获得正确
的
主题
数量(我猜)。因为我对此非常陌生,我只是想了几个问题,这些问题对你们
中
的
一些人来说可能是显而易见
的
,但我在网上找不到。在清理数据之前,我已经删除了所有重复实例(删除提及、终止词、奇怪字符、数字等)(所有三列共有),以避免它们影响
主题</e
浏览 0
提问于2020-12-30
得票数 2
回答已采纳
2
回答
如何打印
lda
主题
模型和
每个
主题
的
词云
python
、
topic-modeling
、
word-cloud
from nltk.tokenize import RegexpTokenizerfrom
gensim
import corpora, modelsimport osfrom time import sleepcorpus = [dictionary.doc2bow(i) for i i
浏览 3
提问于2016-10-27
得票数 9
2
回答
如何设置时间片-动态
主题
模型
python-3.x
、
nlp
、
gensim
、
lda
、
topic-modeling
Intro 目前,我正在使用
Gensim
与熊猫和numpy一起运行
文档
NLP计算。我想要建立一个
LDA
序列模型,以跟踪我们
的
主题
如何随着时间
的
变化,但遇到错误
的
语料库格式。我试图弄清楚如
何为
动态
主题
模型设置时间切片。我使用
的
是,它需要一个整数时间片。前提是time_slice将表示
每个
时间片中
的
指示数/行/
文档
数。例如,我
的
数
浏览 0
提问于2019-07-05
得票数 2
回答已采纳
3
回答
文本分类和
主题
模型有什么区别?
classification
、
text-mining
、
topic-model
我知道聚类和分类在机器学习
中
的
区别,但是我不理解文本分类和
文档
主题
建模
之间
的
区别。我可以使用
文档
上
的
主题
建模
来识别一个
主题
吗?我可以使用分类方法对这些
文档
中
的
文本进行分类吗?
浏览 0
提问于2014-08-12
得票数 30
回答已采纳
2
回答
如何在doc2vec中找到
文档
中最相似的术语/单词?
python
、
cluster-analysis
、
gensim
、
word2vec
、
doc2vec
我
应用
Doc2vec将
文档
转换为vectors.After,在聚类中使用向量,
并
计算出与
每个
集群
的
质心最接近/最相似的5个
文档
。现在,我需要找到这些
文档
中最主要或最重要
的
术语,以便我能够了解
每个
集群
的
特征。我
的
问题是,在Doc2vec
中
,是否有任何方法可以找出
文档
中最主要或最简单
的
术语/单词。我正在使用python
的<
浏览 3
提问于2017-09-05
得票数 0
回答已采纳
2
回答
用于内容推荐
的
PredictionIO (例如Tweets )
nlp
、
text-mining
、
predictionio
我想要实现
的
是:,我想对文本
中
包含
的
单词进行分类。,但是我如何将原始Tweets这样
的
数据导入PredictionIO呢?是否有可能让PredictionIO浏览内容
并
找到强有力
的
单词并将它们按类别进行排序?我想得到
的
是:应该出现
的
Query for Boston Red Sox -->关键字是:baseball, Boston, sports, ...
浏览 0
提问于2015-05-12
得票数 1
3
回答
哪些观察与
LDA
中
的
主题
模型相关,以及sklearn包实现
machine-learning
、
scikit-learn
、
lda
、
unsupervised-learning
、
sklearn-pandas
我已经成功地实现了这个,我可以很好地看到这些
主题
,但是我如何恢复到这些
主题
形成
的
观察呢?我知道这是可能
的
,使用SAS企业矿工,但我不知道如何做到这一点。任何帮助都将不胜感激!谢谢。
浏览 4
提问于2016-11-04
得票数 1
回答已采纳
4
回答
如何在百万
文档
的
文档
分类中发现离群点?
python
、
machine-learning
、
text-classification
、
outliers
、
cosine-similarity
我有一百万个
文档
,它们属于不同
的
类(100个类)。我想找出
每个
类
中
的
异常
文档
(不属于该类,但分类错误),
并
对它们进行过滤。我可以通过比较
每个
文档
的
标记来使用余弦相似度进行
文档
相似度。我无法
将其
应用
于为给定类别过滤错误分类
的
文档
。示例:为了简单起见,考虑这3个类以及它们下面的
文档
。 ClassA ClassB
浏览 0
提问于2019-12-19
得票数 2
2
回答
使用
Gensim
获得
LDA
-模型
的
最佳
主题
数量
的
最佳方法是什么?
python
、
text-mining
、
lda
、
gensim
、
topic-modeling
我正试图在
Gensim
中
获得
LDA
模型
的
最佳
主题
数.我发现
的
一种方法是计算
每个
模型
的
日志可能性,
并
相互比较,例如在上。因此,我研究了使用
Gensim
计算
LDA
模型
的
日志可能性,
并
看到了以下帖子: 它基本上说明了update_alpha()方法实现了黄、乔纳森
中
的
方法。Dirichlet分布参数
的
极大似然估计不过
浏览 5
提问于2015-08-31
得票数 11
1
回答
建立基于verse
主题
的
古兰经经文检索系统doc2vec嵌入模型需要帮助
python
、
deep-learning
、
nlp
、
arabic
、
doc2vec
我收集了阿拉伯语、伊斯兰数据,
如
: حدثناسعيدبنيحيىبنسعيدالقرشي،قالحدثناأبيقال经过培训
后
,我
的
模型是使用它嵌入
每个
手册注释
的
主题
individuality (为了澄清:我将像这样
的
每一行أركان الاسلام-التوحيد-الكافرون-افت
浏览 1
提问于2019-02-17
得票数 1
5
回答
从文本内容生成标签
python
、
tags
、
machine-learning
、
nlp
、
nltk
我很好奇是否
存在
一种算法/方法,通过使用一些权重计算、出现比率或其他工具,从给定
的
文本生成关键字/标签。谢谢
浏览 2
提问于2010-04-18
得票数 51
回答已采纳
1
回答
语义用户界面
中
的
动态
主题
变化
javascript
、
semantic-ui
在语义用户界面
中
,有很多问题问如何改变
主题
,但我甚至没有找到一个问题,它指的是动态地改变
主题
,即webpack构建之后。 我想让
每个
用户
的
网站,以保存自己
的
喜好为
主题
。不幸
的
是,我看到
的
主题
页面和所有
文档
描述了如何更改站点范围内
的
主题
,并
将其
应用
到新
的
站点范围构建中。或者定制(静态)站点范围
的
浏览 3
提问于2017-03-14
得票数 11
回答已采纳
3
回答
从Twitter状态
获取
意图
的
工具?
facebook
、
twitter
、
nlp
、
social-media
我正在考虑一个项目,在这个项目中,出版物
的
内容由该地区的人发布
的
相关
的
、公开
的
推文来扩充。但是我怎样才能通过编程找到相关
的
Tweet呢?我知道生成表示自然语言含义
的
结构几乎是NLP
的
圣杯,但也许有一些工具可以让我至少缩小范围? 或者,我可以只使用hashtag。但这需要代表用户做更多
的
工作。我不太熟悉Twitter -大多数人使用标签(即使是小范围
的
问题),或者依赖它们会切断大量
的
数据吗?我也有兴趣
获取</e
浏览 0
提问于2010-08-15
得票数 3
2
回答
解释Magento缓存系统
caching
、
magento
谁能解释一下Magento缓存系统以及Magento
中
的
缓存模块是如何工作
的
?
浏览 0
提问于2012-02-15
得票数 11
回答已采纳
3
回答
Powerpoint Super
主题
,手动构建.thmx
文件
和编辑xml
文件
xml
、
themes
、
powerpoint
、
uid
因为我不是一个真正
的
程序员,所以更多
的
是试错… 在
每个
theme1.xml
文件
的
末尾都有一个UID-id属性。我假设这代表了超级
主题
的
id,因为这个id需要与超级
主题
中
的
所有
主题
文件
相同。我试图重用从PowerPoint保存
的
主题
文件
中
的
id,但这不起作用,我假设这是如何被识别为单个
主题
<em
浏览 57
提问于2020-11-24
得票数 0
4
回答
涉及
文件
上传和签名
的
应用
程序
java
、
c#
、
asp.net
、
docusignapi
、
hellosign-api
我正在创建一个具有以下要求
的
web
应用
程序:我正在研究第三方开发者API,以帮助解决这个问题,比如DocuSign,但是我想到了一些问题/关注。我将假设上传和设置要签署
的
区域将需要通过docusign网站完成。那么,
每个
管理员是否必须登录到单个租户D
浏览 3
提问于2018-12-02
得票数 0
回答已采纳
点击加载更多
相关
资讯
R语言社区主题检测算法应用案例
机器学习当中的数学闪光:如何直观地理解 LDA
数据分享|Python酒店评论文本分析:tfidf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近KNN、随机森林、LDA主题模型
Spark平台下基于LDA的k-means算法实现
机器学习-话题模型
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
智聆口语评测
活动推荐
运营活动
广告
关闭
领券