文本型数据的向量化:TF-IDF

用户1171305

发布于 2017-12-28 11:28:36

2K0

1.对于文本型数据的分类处理（或者其他的处理），根据ik和jcseg等分词器先对它们进行分词处理之后，大家都知道，计算机是处理不了汉字的，对于文本型的词我们如何才能让计算机处理呢？我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述，网上的资源非常多，这里我主要来看看是如何实现的。

2.测试数据的准备（pca.txt）

1,纵坐标是该词在该文章中的权重 0,其出发点是一个词对于分类的重要性不但取决于其在整个语料中出现的概率 0,那么它对于分类的重要性也是不同的 1,我们是祖国的接班人

说明：，前面的是类别，后面的是伪造的一些分词的结构，通过空格分割，具体的一篇文章，可以通过分词器将其分割成这样的。

3.代码实现

LableWords.scala

package com.iflytek.classifier

import java.io.Serializable

case class LableWords(label:String,words:Array[String]) extends Serializable{ }

TestTfIdf.scala

package com.iflytek.tfidf

import org.apache.spark.sql.SparkSession import org.apache.spark.ml.linalg.Vectors import org.apache.spark.ml.feature.HashingTF import org.apache.spark.ml.feature.IDF import com.iflytek.classifier.LableWords import org.apache.log4j.Logger import org.apache.log4j.Level

object TestTfIdf { def main(args: Array[String]): Unit = { val sc=SparkSession.builder().master("local").appName("tfidf").getOrCreate() Logger.getRootLogger.setLevel(Level.OFF) import sc.implicits._ val dataFile=sc.sparkContext.textFile("E:\\test\\pca.txt", 10) .map { line => val split=line.split(",") LableWords(split(0),split(1).split(" ")) }.toDS val tf=new HashingTF().setInputCol("words").setOutputCol("rawfeatures").setNumFeatures(10000)//10000表示设置的特征数 val tfdata=tf.transform(dataFile) val idf=new IDF().setInputCol("rawfeatures").setOutputCol("features").fit(tfdata) val idfdata=idf.transform(tfdata) idfdata.select("label", "features").foreach { x => println(x.apply(0)+" "+x.apply(1)) } } }

4.运行结果截图

说明：最左边的是类别（0，1）右边的10000是特征数，就是第一个[]里面的数据是每个词被转换成的数字，范围应该在特征数之间，后面的[]是这个词对应的tfidf的值。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017-05-03 ，如有侵权请联系 cloudcommunity@tencent.com 删除

数据处理

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据处理

登录后参与评论

0 条评论

热度

文本型数据的向量化:TF-IDF

文本型数据的向量化:TF-IDF

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐