Spark 2.1.1:如何在Spark 2.1.1中已经训练好的LDA模型上预测未见文档中的主题？ - 腾讯云开发者社区

、、、、

我正在使用Spark 1.3.0 (Scala2.10.X) MLlib LDA算法和Spark Java API。当我试图在运行时从LDA模型中读取文档主题分布时，我遇到了以下问题。"main“java.lang.ClassCastException：[Lscala.Tuple2；不能强制转换为scala.Tuple2DistributedLDAModelldaModel = new

浏览 0提问于2015-07-29得票数 1

3回答

从Pyspark模型中提取文档主题矩阵

、、、

我已经通过Python成功地训练了spark中的LDA模型：model=LDA.train(corpus,k=10)这很好，但我现在需要LDA模型的文档主题矩阵，但据我所知，我所能得到的只有单词-主题，使用model.topicsMatrix()

浏览 2提问于2015-10-12得票数 16

回答已采纳

2回答

如何使用经过Apache培训的ML模型开发REST？

、、、

假设这种情况：我们分析数据，用我们手头的任何工具训练一些机器学习模型，并保存这些模型。这是在Python中完成的，使用和API。我们知道Apache擅长批处理，因此对于上述场景来说是个不错的选择。现在进入生产阶段，对于每个给定的请求，我们需要返回一个响应，这也取决于经过训练的模型的输出。我猜想，这就是人们所称的流处理，通常建议使用Apache。但是，如何使用Python中可用<e

浏览 2提问于2017-03-10得票数 2

1回答

火花多项式Logistic回归中的非预期系数

、、、、

我在我的Mac操作系统Sierra上运行了Spark2.1.1(如果这有帮助的话)。我尝试在我在网上找到的测试数据集上拟合多项logistic回归，我在这里报告前几行(我不知道如何在这里附加文件)：1,0,261,1,273,1,27 第一栏是标签由于标签有3个类，多项式logistic回归应该执行3个二项式模型，然后从最大可能在该类中存在的模型中选择

浏览 4提问于2017-07-04得票数 0

回答已采纳

3回答

MALLET与NLTK中的主题建模

、

我刚刚读了一篇关于如何将MALLET用于主题建模的有趣文章，但我在网上找不到任何将MALLET与NLTK进行比较的文章，因为我已经有了一些经验。它们之间的主要区别是什么？MALLET是一个更“完整”的资源吗(例如，在引擎盖下有更多的工具和算法)？或者，回答前两个问题的好文章在哪里？

浏览 0提问于2011-09-20得票数 28

回答已采纳

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

看看谷歌的云服务，DataProc似乎也可以做同样的事情。为什么谷歌同时提供这两种服务？

浏览 1提问于2017-09-27得票数 66

4回答

神经网络解析字符串数据？

因此，我刚刚开始学习神经网络如何操作来识别模式和分类输入，我已经看到了人工神经网络如何解析图像数据并对图像进行分类(用卷积演示)，关键是降低图像采样，每个像素刺激一个输入神经元进入网络。我得到的用例是用户看过的电影的“推荐引擎”。电影中有大量的字符串数据(标题、情节、标签)，我可以想象将文本“降采样”到描述这部电影的几个关键词，但即使我解析出描述这部电影的前五个单词，我想我也需要每个英语单词的输入神经元来比较一组电影？我可以限制输入神经元仅限于在集合中

浏览 0提问于2014-07-30得票数 33

回答已采纳

5回答

从文本内容生成标签

、、、、

我很好奇是否存在一种算法/方法，通过使用一些权重计算、出现比率或其他工具，从给定的文本生成关键字/标签。谢谢

浏览 2提问于2010-04-18得票数 51

回答已采纳

4回答

文本分类分类器

、、、、

有没有人知道好的开源文本分类模型？我知道斯坦福分类器，Weka，Mallet等，但它们都需要培训。我需要将新闻文章分类为体育/政治/健康/游戏/等等。有没有预先训练好的模型？

浏览 1提问于2013-03-07得票数 6

回答已采纳

3回答

twitter/facebook评论分类为不同类别

、、、、

我想知道，我应该在评论/推特中寻找哪些标记/标记，以便将其分类为任何一个类别。最后使用哪种分类器。我只需要一些指导和建议，我会从那里接受的。请帮帮忙。谢谢

浏览 6提问于2014-10-06得票数 7

回答已采纳

5回答

高维二进制稀疏数据的聚类算法

、、

我有一个包含10,000个基因的数据集，如下所示 1 0 1 1asian每一行都意味着一个人的DNA中是否有一个基因。我们正试图根据上述数据对不同的族裔群体进行分类。但是首先，我们想要使用一些聚类算法来可视化集群对于不同种族群体的样子。我们不打算使用这种聚类算法来对组进行分类，如果我们有很好<

浏览 0提问于2017-10-07得票数 7

2回答

在使用pandas_udf和Parquet序列化时内存泄漏？

、、、、

我目前正在使用PySpark开发我的第一个完整系统，我遇到了一些奇怪的、与内存相关的问题。在其中一个阶段中，我想要类似于拆分-应用-组合策略来修改DataFrame。问题是，我想要应用的函数是一种拟合模型的预测方法，该模型“说”出了Pandas成语，即它是矢量化的，并以Pandas系列作为输入。我决定不使用GroupedMap类型的pandas_udf，因为文档规定内存应该由用户管

浏览 34提问于2019-05-27得票数 14

6回答

Kafka对实时数据的主要优势是什么？

、

在我们的大数据时代，您的IT基础架构可能会受到各种来源数据涌入的影响。最重要的是，客户要求“实时”查看他们的数据，没有任何延迟时间，因此您的服务器需要快速处理和显示数据。Uber，Twitter，Airbnb，Yelp以及今天财富500强公司中超过30％的公司都在使用它。例如，通过集成各种数据，如喜欢，页面点击，搜索，订单，购物车和库存，Kafka可以帮助实时将数据提供给预测分析引擎，以分析客户行为。那么 Kafka

浏览 7133提问于2018-09-14

3回答

Apache消息传递语义

、、

我研究了Apache文档中的消息传递语义。Apache函数所提到的传递语义(至少一次、最多一次和有效一次)，如果我们不使用Apache函数，那么有哪些不同的交付语义可用呢？

浏览 8提问于2020-04-30得票数 3

回答已采纳

4回答

如何计算精确度、召回率、准确率和多类案例的f1-score？

、、、、

我正在处理一个情绪分析问题，数据看起来是这样的： 5 1190 3 239因此，我的数据是不平衡的，因为1190个instances被标记为5。对于分类，我使用的是scikit的。问题是我不知道如何以正确的方式平衡我的数据，以便准确地计算多类情况下的精确度、召回率、准确率和F1分数。sample_weight=sam

浏览 231提问于2015-07-15得票数 132

回答已采纳

6回答

没有单元测试的敏捷

、、

如果您正在处理的代码库有0%的单元测试覆盖率，那么谈论“敏捷开发”或声称您正在应用“敏捷方法”有意义吗？(作为一个团队，你们对此没有采取任何行动)。也许还有其他的方法，但我仍然看不出它们是如何工作的。

浏览 0提问于2016-05-30得票数 27

回答已采纳

7回答

深度学习的主要框架有哪些可以通过腾讯云服务器学习？

、

深度学习的大部分知识都很深奥，作为一个深度学习领域的小白，想要了解一下深度学习分为哪些大致的框架，分别的内容又有哪些？哪些框架可以通过腾讯云服务器来开始学习呢？

浏览 2814提问于2018-09-07

30回答

关于数据库，每个开发人员都应该知道些什么？

、、

考虑到野外滥用和滥用的数量，以及每天都会出现的大量与数据库有关的问题，可以公平地说，有些概念是开发者应该知道的--即使他们今天没有设计数据库或使用数据库。关于数据库，开发人员和其他软件专业人员应该知道的一个重要概念是什么？

浏览 19提问于2009-12-30得票数 209

9回答

如何快速入门Kafka消息队列？

、

最近经常听到这个名词，但是不知道如何入门，我看到腾讯云也有相关的产品Ckafka产品，所以来问问~

浏览 5071提问于2018-09-14

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

"main“java.lang.ClassCastException：[Lscala.Tuple2；在Spark MLlib LDA中不能强制转换为scala.Tuple2

从Pyspark模型中提取文档主题矩阵

如何使用经过Apache培训的ML模型开发REST？

火花多项式Logistic回归中的非预期系数

MALLET与NLTK中的主题建模

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

神经网络解析字符串数据？

从文本内容生成标签

文本分类分类器

twitter/facebook评论分类为不同类别

高维二进制稀疏数据的聚类算法

在使用pandas_udf和Parquet序列化时内存泄漏？

Kafka对实时数据的主要优势是什么？

Apache消息传递语义

如何计算精确度、召回率、准确率和多类案例的f1-score？

没有单元测试的敏捷

深度学习的主要框架有哪些可以通过腾讯云服务器学习？

关于数据库，每个开发人员都应该知道些什么？

如何快速入门Kafka消息队列？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐