首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何保存稀疏数据集以供scikit-learn使用?

如何保存稀疏数据集以供scikit-learn使用?
EN

Stack Overflow用户
提问于 2015-05-15 01:36:59
回答 1查看 135关注 0票数 0

我正在写一个java文本挖掘工具。我想用scikit-learn分类器测试我的数据集。我使用Java动态创建特征向量,向量非常稀疏。我想将我的稀疏向量/数据集导出为一种可以轻松与scikit-learn一起使用的格式。我已经用Java语言编写了一个导出函数,将数据集导出为ARFF格式,但我发现用scikit-learn无法读取它。有一些用于ARFF文件的python解析器,但它们不支持稀疏数据集。

即哪种格式?!

EN

回答 1

Stack Overflow用户

发布于 2015-05-15 02:12:18

一种次优但简单的方法是使用libsvm / svmlight格式,这是一种使用

label feature_index:feature_value feature_index:feature_value

如果您的数据不是太大,这可以很好地工作。你可以用sklearn.datasets.load_svmlight_file阅读它。

我有点惊讶python中的arff阅读器不支持稀疏数据。你试过scipy.io.arff.loadarff吗?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30243761

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档