我正在写一个java文本挖掘工具。我想用scikit-learn分类器测试我的数据集。我使用Java动态创建特征向量,向量非常稀疏。我想将我的稀疏向量/数据集导出为一种可以轻松与scikit-learn一起使用的格式。我已经用Java语言编写了一个导出函数,将数据集导出为ARFF格式,但我发现用scikit-learn无法读取它。有一些用于ARFF文件的python解析器,但它们不支持稀疏数据集。
即哪种格式?!
发布于 2015-05-15 02:12:18
一种次优但简单的方法是使用libsvm / svmlight格式,这是一种使用
label feature_index:feature_value feature_index:feature_value
如果您的数据不是太大,这可以很好地工作。你可以用sklearn.datasets.load_svmlight_file阅读它。
我有点惊讶python中的arff阅读器不支持稀疏数据。你试过scipy.io.arff.loadarff吗?
https://stackoverflow.com/questions/30243761
复制相似问题