首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >基本使用。第一步

基本使用。第一步
EN

Stack Overflow用户
提问于 2016-11-14 01:25:07
回答 2查看 737关注 0票数 2

我试图在主题建模等方面使用Mallet,没有任何解释。我的目的是获得我现在拥有的M文档的N个主题,将每个文档分类为一个或多个主题(doc 1=主题1;doc 2=主题2,可能还有主题3),并根据这个结果对未来的新文档进行分类。我第一次尝试使用bigartm,但是在这个程序中没有发现任何用于分类的东西,只有主题建模。所以Mallet,我创建了一个corpus.txt文件,格式如下:

Doc.num. \t(tab) Label(actualy 1 everywhere) \t Text 1 1 some text of document to classify 2 1 another doc text ...

现在,我可以从这个文件中获取主题,然后将其转换为mallet的功能序列格式。

bin/mallet import-file --input corpus.txt --output foo.mallet--keep-sequence

然后从里面找出话题

bin/mallet train-topics --input foo.mallet --output-state state.gz --output-topic-keys topic-keys.txt --output-doc-topics doc-topics.txt

因此,现在的普遍问题是在槌(训练分类器?)中使用什么?将每个现有文档分配给我找到的主题,并保存此结果以应用于我希望与此主题一起分类的未来文档。

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-11-14 07:27:32

您要寻找的是在Mallet主题模型中被描述为“推断”。训练分类器是一个单独的程序包,目的是直接学习单词和预先存在的一组类之间的关系。

以下是对新文档使用推断的说明:

使用train-topics命令训练模型时,添加--inferencer-filename [FILENAME]选项。此选项将创建基于当前、经过培训的模型的主题推理工具,并将其保存在文件中。如果您已经拥有经过训练的模型,例如来自--output-state--output-model的模型,您可以从该状态或模型初始化,运行0次抽样迭代,并输出推断器。

一旦创建了推理器文件,就可以使用MALLET命令bin/mallet infer-topics --help获取有关使用主题推断的信息。

请注意,必须确保新数据与培训数据兼容。否则,ID 425可能意味着一个完全不同的词。这将使所有的主题看起来都是一样的。使用MALLET命令bin/mallet import-fileimport-dir中的选项bin/mallet import-file指定培训文件。

票数 2
EN

Stack Overflow用户

发布于 2016-11-14 05:31:24

在您的问题设置中,人类可读的文件doc-topics.txt包含文档-主题矩阵,即将语料库中的每个文档组合成主题。主题由数字表示,并给出了它们的百分比。文件的格式是这样的,主题已经按其优先级排序,所以最主要的主题是第一位的。

文件topic-keys.txt包含第一个最热门的词。您可以使用这个文件来猜测主题的一些好的标签。这个标签主要是一项手工工作,它可能涉及回到文件,并检查其中一些得到真正好的标签。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40585370

复制
相关文章
Python中的编码
Python处理字符串,写文件时会碰到许多的编码问题,特别是涉及到中文的时候,非常烦人,但又不得不学。下面主要记录工作过程中碰到的Python编码问题。 1. 字符串编码 Python的字符串类型为s
Tyan
2017/12/29
1K0
解决安卓中XML文件声明高度 宽度无效的问题
搬砖的时候,需要在popupwindow里嵌套一个ListView用来展示动态菜单。重写了ListView的高度为所有的Item高度之和。 item: <?xml version="1.0"
Xiaolei123
2018/06/28
2.1K0
编码声明的问题(php或meta)
编码声明的方法:一种是利用php header来进行声明,另外一种是利用HTML <meta >标签进行声明 1.利用php header()函数声明,这个header()函数的作用是把括号里面的信息发到http标头。  header("Content-type: text/html; charset=xxx");  例如: php页面为utf编码 header("Content-type: text/html; charset=utf-8");  php页面为gbk编码 header("Conten
joshua317
2018/04/10
1.2K0
文字编码 - XML 教程
XML 指可扩展标记语言,被设计用来传输和存储数据。本文记录XML基础知识。 教程参考w3school。 简介 XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 标签没有被预定义。您需要自行定义标签 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 XML 是没有任何行为的纯文本,仅编码保存数据 用途 XML 把数据从 HTML 分离 XML 简化数据共享 X
为为为什么
2022/08/04
6420
文字编码 - XML 教程
Python中的编码问题
视频汇总首页:http://edu.51cto.com/lecturer/index/user_id-4626073.html
py3study
2020/01/06
2K0
python中的编码问题
在python2.x中,有两种数据类型,unicode和str,这两个都是basestring的子类
py3study
2020/01/05
1.4K0
Python中类的声明,使用,属性,实例
注意这里的方法__intit__(self)下划线是前面两个下划线,后面两个下划线,并不是一个下划线。
py3study
2020/01/15
5.7K0
python中的编码与解码
编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显示00110101,还是要显示'a',但计算机怎么知道00110101是'a'呢,这就需要解码,当选择用ascii解码时,当计算机读到00110101时就到对应的ascii表里一查发现是'a',就显示为'a'
李拜六不开鑫
2018/09/04
1.3K0
python中的编码与解码
Python 中的 Elias Delta 编码
首先,在为 Elias Delta 编码编写代码之前,我们将实现 Elias delta 编码。
海拥
2021/12/20
6670
python中烦人的编码问题
mysql数据中都是UTF编码,导出到文件称csv还是xls都是utf-8,用python的pandas读取可以,但每次写代码的时候都需要很小心看文件原来是什么编码
机械视角
2019/10/23
8080
Spring 基于 XML 的声明式事务控制(配置方式)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
多凡
2019/11/01
4680
python中轻松声明变量和使用
如果变量已经被声明过,在Python中实际上是被初始化赋值过,那么就可以在声明后进行调用,调用的时候,只需要使用变量的名称即可。
刘金玉编程
2019/08/20
1.3K0
Spring使用自带的DataSourceTransactionManager声明式事务(xml)模板
我这里用的是Druid连接池 applicationConttext.xml: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://
用户9006224
2022/12/21
4400
Python中编码问题(UnicodeDecodeError)的处理
之前也遇到过,但是没有深入的去了解和测试,今天借此问题,对python的编码问题做个详细的学习;首先说明一点的是,目前公司的开发环境是Python 2.7;
SEian.G
2021/03/18
3.8K0
浅谈 Python 2 中的编码问题
Python 2.x 里的编码实在是一件令人烦躁的事情。不断有初学者被此问题搞得晕头转向。我自己也在很长一段时间内深受其害,直到现在也仍会在开发中偶尔被坑。在本教室的提问和讨论中,编码问题也占据了相当大的比重。 然而这个问题并不能一两句话轻易解答。今天在这里稍微分析一下,希望能帮各位理清这里面的问题。 要弄清编码问题,首先明确几个概念: str、unicode、encode、decode str 就是我们通常说的字符串,在 python 中是由引号包围的一串字符。但是 Python 中的默认字符并不包括中文
Crossin先生
2018/04/17
1K0
Spring 基于纯注解方式的声明事务控制(不带XML)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
多凡
2019/11/01
4740
JAVA中的声明语句
JSP声明语句:<%!声明语句%>,通常声明全局变量、常量、方法、类 JSP Scriptlet:<%java代码%>,其中可包含局部变量、java语句 JSP表达式:<%=java 代码%> 显示注释:即HTML注释,可以在客户端显示<!–注释部分--> 隐式注释:即JSP注释,不能在客户端显示<%--注释部分--%> <!-- 显示注释:声明局部变量、java语句 --> 以下是举得例子,帮助你理解 <% int result = 1; out.println(NUM + "+" + result +
Twcat_tree
2022/11/30
9960
Spring Cache抽象-基于XML的配置声明(基于EhCache的配置)
首先请阅读Spring Cache抽象-基于XML的配置声明(基于ConcurrentMap的配置),本篇博文基于XML的配置,使用了Ehcache缓存管理器。
小小工匠
2021/08/17
3750
Spring JDBC-使用XML配置声明式事务
大多数开发者选择声明式事务管理的功能,这种方式对代码的侵入性最小,可以让事务管理完全从业务代码中移除,非常符合非侵入式轻量容器的理念。
小小工匠
2021/08/17
4470
点击加载更多

相似问题

需要关于Swift while语句的建议

44

关于while循环内打印语句的查询

115

关于带有开关的do-while语句

30

关于涉及while和switch语句的购买问题

20

未知while while语句

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档