开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >基本使用。第一步

问基本使用。第一步
EN

Stack Overflow用户

提问于 2016-11-14 01:25:07

回答 2查看 737关注 0票数 2

我试图在主题建模等方面使用Mallet，没有任何解释。我的目的是获得我现在拥有的M文档的N个主题，将每个文档分类为一个或多个主题(doc 1=主题1；doc 2=主题2，可能还有主题3)，并根据这个结果对未来的新文档进行分类。我第一次尝试使用bigartm，但是在这个程序中没有发现任何用于分类的东西，只有主题建模。所以Mallet，我创建了一个corpus.txt文件，格式如下：

Doc.num. \t(tab) Label(actualy 1 everywhere) \t Text 1 1 some text of document to classify 2 1 another doc text ...

现在，我可以从这个文件中获取主题，然后将其转换为mallet的功能序列格式。

bin/mallet import-file --input corpus.txt --output foo.mallet--keep-sequence

然后从里面找出话题

bin/mallet train-topics --input foo.mallet --output-state state.gz --output-topic-keys topic-keys.txt --output-doc-topics doc-topics.txt

因此，现在的普遍问题是在槌(训练分类器？)中使用什么？将每个现有文档分配给我找到的主题，并保存此结果以应用于我希望与此主题一起分类的未来文档。

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-11-14 07:27:32

您要寻找的是在Mallet主题模型中被描述为“推断”。训练分类器是一个单独的程序包，目的是直接学习单词和预先存在的一组类之间的关系。

以下是对新文档使用推断的说明：

使用train-topics命令训练模型时，添加--inferencer-filename [FILENAME]选项。此选项将创建基于当前、经过培训的模型的主题推理工具，并将其保存在文件中。如果您已经拥有经过训练的模型，例如来自--output-state或--output-model的模型，您可以从该状态或模型初始化，运行0次抽样迭代，并输出推断器。

一旦创建了推理器文件，就可以使用MALLET命令bin/mallet infer-topics --help获取有关使用主题推断的信息。

请注意，必须确保新数据与培训数据兼容。否则，ID 425可能意味着一个完全不同的词。这将使所有的主题看起来都是一样的。使用MALLET命令bin/mallet import-file或import-dir中的选项bin/mallet import-file指定培训文件。

票数 2

EN

Stack Overflow用户

发布于 2016-11-14 05:31:24

在您的问题设置中，人类可读的文件doc-topics.txt包含文档-主题矩阵，即将语料库中的每个文档组合成主题。主题由数字表示，并给出了它们的百分比。文件的格式是这样的，主题已经按其优先级排序，所以最主要的主题是第一位的。

文件topic-keys.txt包含第一个最热门的词。您可以使用这个文件来猜测主题的一些好的标签。这个标签主要是一项手工工作，它可能涉及回到文件，并检查其中一些得到真正好的标签。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40585370

复制

相关文章

Python中的编码

Python处理字符串，写文件时会碰到许多的编码问题，特别是涉及到中文的时候，非常烦人，但又不得不学。下面主要记录工作过程中碰到的Python编码问题。 1. 字符串编码 Python的字符串类型为s

Tyan

2017/12/29

1K0

解决安卓中XML文件声明高度宽度无效的问题

搬砖的时候，需要在popupwindow里嵌套一个ListView用来展示动态菜单。重写了ListView的高度为所有的Item高度之和。 item： <?xml version="1.0"

Xiaolei123

2018/06/28

2.1K0

编码声明的问题（php或meta）

编码声明的方法：一种是利用php header来进行声明，另外一种是利用HTML <meta >标签进行声明 1.利用php header()函数声明，这个header()函数的作用是把括号里面的信息发到http标头。 header("Content-type: text/html; charset=xxx"); 例如： php页面为utf编码 header("Content-type: text/html; charset=utf-8"); php页面为gbk编码 header("Conten

joshua317

2018/04/10

1.2K0

文字编码 - XML 教程

XML 指可扩展标记语言，被设计用来传输和存储数据。本文记录XML基础知识。教程参考w3school。简介 XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 标签没有被预定义。您需要自行定义标签 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 XML 是没有任何行为的纯文本，仅编码保存数据用途 XML 把数据从 HTML 分离 XML 简化数据共享 X

为为为什么

2022/08/04

6420

Python中的编码问题

python 编程算法

视频汇总首页：http://edu.51cto.com/lecturer/index/user_id-4626073.html

py3study

2020/01/06

2K0

python中的编码问题

java python 编程算法 linux

在python2.x中，有两种数据类型，unicode和str，这两个都是basestring的子类

py3study

2020/01/05

1.4K0

Python中类的声明,使用,属性,实例

面向对象编程 java python

注意这里的方法__intit__(self)下划线是前面两个下划线,后面两个下划线,并不是一个下划线。

py3study

2020/01/15

5.7K0

python中的编码与解码

编码/解码本质上是一种映射（对应关系），比如‘a’用ascii编码则是65，计算机中存储的就是00110101，但是显示的时候不能显示00110101，还是要显示'a'，但计算机怎么知道00110101是'a'呢，这就需要解码，当选择用ascii解码时，当计算机读到00110101时就到对应的ascii表里一查发现是'a'，就显示为'a'

李拜六不开鑫

2018/09/04

1.3K0

Python 中的 Elias Delta 编码

python 存储编程算法

首先，在为 Elias Delta 编码编写代码之前，我们将实现 Elias delta 编码。

海拥

2021/12/20

6670

python中烦人的编码问题

mysql数据中都是UTF编码，导出到文件称csv还是xls都是utf-8，用python的pandas读取可以，但每次写代码的时候都需要很小心看文件原来是什么编码

机械视角

2019/10/23

8080

Spring 基于 XML 的声明式事务控制（配置方式）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

多凡

2019/11/01

4680

python中轻松声明变量和使用

编程算法 python

如果变量已经被声明过，在Python中实际上是被初始化赋值过，那么就可以在声明后进行调用，调用的时候，只需要使用变量的名称即可。

刘金玉编程

2019/08/20

1.3K0

Spring使用自带的DataSourceTransactionManager声明式事务(xml)模板

我这里用的是Druid连接池 applicationConttext.xml: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://

用户9006224

2022/12/21

4400

Python中编码问题(UnicodeDecodeError)的处理

unicode ascii 编程算法腾讯云测试服务

之前也遇到过，但是没有深入的去了解和测试，今天借此问题，对python的编码问题做个详细的学习；首先说明一点的是，目前公司的开发环境是Python 2.7；

SEian.G

2021/03/18

3.8K0

浅谈 Python 2 中的编码问题

Python 2.x 里的编码实在是一件令人烦躁的事情。不断有初学者被此问题搞得晕头转向。我自己也在很长一段时间内深受其害，直到现在也仍会在开发中偶尔被坑。在本教室的提问和讨论中，编码问题也占据了相当大的比重。然而这个问题并不能一两句话轻易解答。今天在这里稍微分析一下，希望能帮各位理清这里面的问题。要弄清编码问题，首先明确几个概念： str、unicode、encode、decode str 就是我们通常说的字符串，在 python 中是由引号包围的一串字符。但是 Python 中的默认字符并不包括中文

Crossin先生

2018/04/17

1K0

Spring 基于纯注解方式的声明事务控制（不带XML）

数据库 spring jdbc 协议注解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

多凡

2019/11/01

4740

JAVA中的声明语句

JSP声明语句：<%!声明语句%>，通常声明全局变量、常量、方法、类 JSP Scriptlet：<%java代码%>，其中可包含局部变量、java语句 JSP表达式：<%=java 代码%> 显示注释：即HTML注释，可以在客户端显示<!–注释部分--> 隐式注释：即JSP注释，不能在客户端显示<%--注释部分--%>  以下是举得例子，帮助你理解 <% int result = 1; out.println(NUM + "+" + result +

Twcat_tree

2022/11/30

9960

Spring Cache抽象-基于XML的配置声明（基于EhCache的配置）

spring 缓存数据库 sql oracle

首先请阅读Spring Cache抽象-基于XML的配置声明（基于ConcurrentMap的配置），本篇博文基于XML的配置，使用了Ehcache缓存管理器。

小小工匠

2021/08/17

3750

Spring JDBC-使用XML配置声明式事务

spring aop jdbc

大多数开发者选择声明式事务管理的功能，这种方式对代码的侵入性最小，可以让事务管理完全从业务代码中移除，非常符合非侵入式轻量容器的理念。

小小工匠

2021/08/17

4470

点击加载更多

相似问题

需要关于Swift while语句的建议

44

关于while循环内打印语句的查询

115

关于带有开关的do-while语句

30

关于涉及while和switch语句的购买问题

20

未知while while语句

14

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例