欢迎关注数据超市微信公众号
首先导入文本数据,进行第一步数据预处理工作:由于数据样本类别不均衡需要对数据进行加权的采样, 然后对于文本数据进行关键词提取;然后进行第二步文本分析特征工程部分:将文本转化成特征向量,也即将提取的关键词转换为tf-idf向量;最后就是比较常规的机器学习的操作训练模型评估模型的部分:将数据分成两部分,一部分作为训练集是训练模型,另一部分作为测试集是用模型来预测,最后对预测结果进行一个二分类评估。
本次视频教学最终目标是判断微博数据是否是新闻数据还是一条普通的微博数据,通过学习本次搭建文本分类器流程,还可以搭建文本情感分类器或新闻主题文本分类器等。
END
科学研究是希望发现这个世界的奥秘
而数据就是这个世界的底牌
-- 数 据 超 市 --
http://BigData711.com/
领取专属 10元无门槛券
私享最新 技术干货