Python h2o svmlight数据

文章/答案/技术大牛

发布

1回答

将稀疏矩阵导入h2o实例非常慢

r、performance、import、sparse-matrix、h2o

我在R中得到了21万x 500个稀疏矩阵，我试图用h2o进行聚类。我设想对于h2o来说，21万行矩阵并不大，但是当我试图将它导入到h2o实例时，需要很长时间(让它运行超过10分钟并在完成之前停止)，当我在稀疏矩阵中子集前10,000行并导入它时，它只需几秒钟。H2O cluster total memory: 14.22 GB H2O cluster allowedcores: 4

浏览 1提问于2017-06-26得票数 0

回答已采纳

1回答

如何将稀疏矩阵引入H2O？

r、sparse-matrix、h2o

假设我们有以下内容：假设我的本地H2O是localH2O，我似乎不能做以下工作这似乎很符合逻辑，但是假设测试太大，我无法将其转换为数据格式，我如何将它加载到H2O中呢？使用稀疏矩阵表示，它仅为500 so左右。如何将稀疏矩阵加载到H2O中？

浏览 7提问于2015-09-29得票数 7

回答已采纳

1回答

使用svmlight读取h2o中的稀疏数据

r、data.table、h2o、svmlight

我正在尝试将SVMLight格式的数据集读取到h2o中。将其写入磁盘上的文件并将其读回是正常的，但直接从R的内存中读取则不是。我想知道是否有不同的函数或调用我在下面使用的函数的不同方式。下面是一个R 3.3.3, h2o 3.10.3.6示例require(h2o) tot_obs <- 100 tot_var:=paste(is_event,feature)][, c("obs","is_ev

浏览 5提问于2017-04-28得票数 1

1回答

将数据直接从Elasticsearch索引导入到h2o

elasticsearch、h2o、h2o4gpu

有没有办法通过任何应用程序接口直接将数据从Elasticsearch索引导入到h2o。谢谢Sarvendra

浏览 5提问于2020-06-08得票数 0

1回答

python、h2o、svmlight

我有一个svmlight格式的文件，其值为：我正在尝试使用h2o.import_file(fname.svmlight)将其导入到h2o中 h2o是否支持高维稀疏二进制特征？

浏览 4提问于2017-08-03得票数 1

1回答

使用稀疏矩阵的内存过多的H2O

r、sparse-matrix、h2o

我使用的是H2O，维数为70万x ~800,000的SVMLight稀疏矩阵。磁盘上的文件大小约为800 on。但是将它导入H2O占用300 it的内存？下面是我的代码：h2o.init(nthreads=-1,max_mem_size = "512g") H2O

浏览 1提问于2017-10-31得票数 0

回答已采纳

1回答

如何在H2O中将数据从长格式转换到宽格式？

r、sparse-matrix、tidyr、h2o、tidytext

总体动机之一是通过分析这些数据来了解各种硬件设置的局限性，但目前我还在努力将数据放入H2O集群(在R可以将其全部保存在内存中的机器上)，因此无法对大小限制进行分析。/Core/ Cholmod _dense.c中的cholmod错误‘问题太大’，第105行将数据的长、整洁、高效的形式上传到H2O中，并在H2O中进行整形“扩展”用R(或任何其他语言)进行数据整形，将产生的稀疏矩阵以稀疏格式保存到磁盘，然后从那里上传

浏览 1提问于2016-12-27得票数 6

回答已采纳

1回答

我可以直接从蜂窝表中提取数据到H2O吗？

hadoop、hive、h2o

我们的数据存储在蜂箱文本文件和拼板文件中，不管怎么说，是否有直接从这些文件加载到H2O，或者我们必须通过一个中间步骤，如csv或熊猫数据文件？

浏览 0提问于2018-02-21得票数 1

1回答

将text2vec dtm写入文件(csv或svmlight)

r、sparse-matrix、svmlight、text2vec

我的最终目标是使用text2vec在R中生成特性，并将生成的矩阵导入H2O以供进一步建模。H2O可以读取CSV或SVMLight格式。我想我也许可以轻松地把它写成SVMLight格式，但是还没有找到一个能工作的库。有谁有其他选项可以将这个输出输出到我可以读入H2O的文件中呢？

浏览 2提问于2016-11-27得票数 1

回答已采纳

2回答

h2o闪亮的省水帧存储到磁盘

h2o、sparkling-water

我正在尝试通过从spark拼接文件创建h2o框架来导入框架。文件大小为2 2GB，行大小约为12M，稀疏向量大小为12k。它在镶木地板格式中不是那么大，但导入永远需要花费时间。在h2o中，它实际上报告为447mb压缩大小。实际上很小。我觉得好

浏览 3提问于2016-12-12得票数 1

1回答

大型glm模型与内存管理

python、h2o、glm

我使用h2o训练一组h2o模型，其中非常稀疏训练矩阵(4million x 50k)是相同的，但是每个模型的响应变量(y)是不同的。在过去，我更喜欢编写SVMLight文件并将其读取回来。但是有了这个，我必须在磁盘上创建20个，并把它读回来。创建没有响应变量的文件是一种方法吗？安装程序:32核，512 jre mem，RHEL7 (单用户)/Python3.6.9/ h2o 3.30.0.2 /jre 1.8.0_251

浏览 9提问于2020-05-01得票数 0

1回答

加载svmlight格式错误

python、import、load、format、svmlight

当我尝试对数据使用时，我已经将其转换为svmlight格式，我会得到一个错误。这应该是很基本的，我不明白发生了什么。下面是代码：training_data = open('thedata', "w") model=svmlight.learn(training_data, type=

浏览 6提问于2014-09-04得票数 0

回答已采纳

1回答

scikit学习用SVM轻型加载器

python、file、machine-learning、svm

一旦我有了一个格式的数据，我需要运行一个分类器从科学工具包(lib线性)。我可以把数据转换成svm光格式。据我所知，有一个模块可以将其转换为科学工具包标准。问题是我不想把文件写到磁盘上。样本svm光数据位于：。(bufFile) line 97, in load_svmlight_filezero_based)) F

浏览 2提问于2012-12-01得票数 0

1回答

如何保存稀疏数据集以供scikit-learn使用？

java、python、scikit-learn

我想用scikit-learn分类器测试我的数据集。我使用Java动态创建特征向量，向量非常稀疏。我想将我的稀疏向量/数据集导出为一种可以轻松与scikit-learn一起使用的格式。我已经用Java语言编写了一个导出函数，将数据集导出为ARFF格式，但我发现用scikit-learn无法读取它。有一些用于ARFF文件的python解析器，但它们不支持稀疏数据集。即哪种格式？！

浏览 5提问于2015-05-15得票数 0

2回答

scikit-learn svmlight格式加载器中的弃用警告

python、scikit-learn

我看到的是以下内容：/Users/cpd/.virtualenvs/py27-ipython+pandas/lib/python2.7/site-packages/sklearn/datasets/svmlight_format.py:137: DeprecationWarning: usi

浏览 1提问于2013-11-20得票数 14

回答已采纳

1回答

用svmLigh读取h2o格式

r、h2o、svmlight

使用h2o R包(v3.24.0.5)对一些深度学习，我需要导入一些大的稀疏矩阵2M * 10k到它。我试过使用fwrite，但是遇到了一个很大的错误，所以我使用了svmlight。为此，我使用了sparsio包，编写还可以，但是当使用h2o.importFile读取文件时，我注意到了一些错误:在每个数字前面都有列索引，如下所示：write_svmlight数据应该如下所示：1 0 nan 10.1266 2 0

浏览 2提问于2019-07-08得票数 0

回答已采纳

1回答

如何将红移表导入H2O Flow？

python、amazon-redshift、h2o

我正在尝试导入红移表到H20流，并使用以下网址作为其他数据库编辑器，即。是否可以将Redshift集群连接到H2O？

浏览 15提问于2019-05-08得票数 0

1回答

稀疏矩阵的k均值的图簇

python、matplotlib、scikit-learn

我有一个在svmlight格式的数据文件上做集群的python脚本。我使用函数sklearn.datasets.load_svmlight_file从数据文件加载数据。我知道这个函数返回一个稀疏矩阵。import sysdataFilename = sys.argv[1] X, y = sklearn.datasets.load_svmlight_file

浏览 2提问于2020-07-09得票数 0

2回答

从linux可执行文件调用函数

python、c

我有这样的python代码：test_data = __import__('data').test0svmlight.write_model(model, 'my_model.dat&#x

浏览 5提问于2014-10-08得票数 2

回答已采纳

1回答

python sklearn读取非常大的svmlight文件

python、scikit-learn、sparse-matrix、libsvm、svmlight

我使用python2.7与svmlight一起存储和读取一个非常大的svmlight格式文件。我正在使用rows, labels = sklearn.datasets.load_svmlight_file(matrixPath, zero_based=True)现在，我发现最好的方法是使用终端命令拆分svmlight文件。然后读取我创建的部分文件。我认为读取大文件的一个好方法是逐行逐行读取，以避免内存溢出。如何使用svmlight格式的文件来完成此操作？

浏览 2提问于2017-07-17得票数 2

点击加载更多