首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器

欢迎关注数据超市微信公众号

首先导入文本数据,进行第一步数据预处理工作:由于数据样本类别不均衡需要对数据进行加权的采样, 然后对于文本数据进行关键词提取;然后进行第二步文本分析特征工程部分:将文本转化成特征向量,也即将提取的关键词转换为tf-idf向量;最后就是比较常规的机器学习的操作训练模型评估模型的部分:将数据分成两部分,一部分作为训练集是训练模型,另一部分作为测试集是用模型来预测,最后对预测结果进行一个二分类评估。

本次视频教学最终目标是判断微博数据是否是新闻数据还是一条普通的微博数据,通过学习本次搭建文本分类器流程,还可以搭建文本情感分类器或新闻主题文本分类器等。

END

科学研究是希望发现这个世界的奥秘

而数据就是这个世界的底牌

-- 数 据 超 市 --

http://BigData711.com/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180112G0FQGP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券