Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于 word2vec 和 CNN 的文本分类 :综述 & 实践

基于 word2vec 和 CNN 的文本分类 :综述 & 实践

原创
作者头像
serena
修改于 2021-08-03 06:56:07
修改于 2021-08-03 06:56:07
19.1K4
举报
文章被收录于专栏:社区的朋友们社区的朋友们

作者:牛亚峰

导语

传统的向量空间模型(VSM)假设特征项之间相互独立,这与实际情况是不相符的,为了解决这个问题,可以采用文本的分布式表示方式(例如 word embedding形式),通过文本的分布式表示,把文本表示成类似图像和语音的连续、稠密的数据。

这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量和卷积神经网络的文本分类方法不仅考虑了词语之间的相关性,而且还考虑了词语在文本中的相对位置,这无疑会提升在分类任务中的准确率。 经过实验,该方法在验证数据集上的F1-score值达到了0.9372,相对于原来业务中所采用的分类方法,有20%的提升。

1.业务背景描述

  • 分类问题是人类所面临的一个非常重要且具有普遍意义的问题,我们生活中的很多问题归根到底都是分类问题。
  • 文本分类就是根据文本内容将其分到合适的类别,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。

2.文本分类综述

2.1 文本分类的发展历史

  • 文本分类最早可以追溯到上世纪50年代,那时主要通过专家定义规则来进行文本分类
  • 80年代出现了利用知识工程建立的专家系统
  • 90年代开始借助于机器学习方法,通过人工特征工程和浅层分类模型来进行文本分类。
  • 现在多采用词向量以及深度神经网络来进行文本分类。

2.2 文本分类的流程

2.3 文档表示

如何把文档表示为算法能够处理的结构化数据无疑是文本分类非常重要的环节。

根据文本表示过程所使用的数学方法不同,可以分为以下几类:

1.基于集合论模型 a 布尔模型 b. 基于模糊集的模型 c.扩展的布尔模型

2.基于代数论模型 a 向量空间模型(VSM) b 基于语义的文本表示

3.基于概率统计模型 a 回归模型 b.二元独立概率模型 c. 语言模型建模IR模型

接下来会详细介绍一下布尔模型、向量空间模型(VSM)、基于语义的文本表示。

2.3.1 布尔模型

布尔模型:查询和文档均表达为布尔表达式,其中文档表示成所有词的“与”关系,类似于传统的数据库检索,是精确匹配。

例如:

查询:2006 AND 世界杯 AND NOT 小组赛

文档1:2006年世界杯在德国举行

文档2:2006年世界杯小组赛已经结束

文档相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功得分为1,否则为0.

布尔模型的优缺点:

优点:简单、现代搜索引擎中依然包含了布尔模型的理念,例如谷歌、百度的高级搜索功能。

缺点:只能严格匹配,另外对于普通用户而言构建查询并不容易。

2.3.2 向量空间模型

向量空间模型:把对文本内容的处理简化为向量空间的向量计算。并且以空间上的相似度表达文档的相似度。

每篇文档由T1、T2、...、Tn一共N个特征项来表示,并且对应着Wi1、Wi2、... 、Win个权重。通过以上方式,每篇文章都表示成了一个N维的向量。

相似度计算:两个文档的相似程度可以用两向量的余弦夹角来进行度量,夹角越小证明相似度越高。

优缺点:

优点:1.简洁直观,可以应用到很多领域(文本分类、生物信息学等)2.支持部分匹配和近似匹配,结果可以排序 3. 检索效果不错

缺点:1.理论上支持不够,基于直觉的经验性公式。 2. 特征项之间相互独立的假设与实际不符。例如,VSM会假设小马哥和腾讯两个词语之间是相互独立的,这显然与实际不符。

2.3.3 基于语义的文本表示

基于语义的文本表示方法:为了解决VSM特征相互独立这一不符合实际的假设,有人提出了基于语义的文本表示方法,比如LDA主题模型,LSI/PLSI概率潜在语义索引等方法,一般认为这些方法得到的文本表示是文档的深层表示。而word embedding文本分布式表示方法则是深度学习方法的重要基础。

2.3.4 文本的分布式表示:词向量(word embedding)

文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密,连续的实数向量。

分布式表示的最大优点在于它具有非常强大的表征能力,比如n维向量每维k个值,可以表征k的n次方个概念。

事实上,不管是神经网络的影层,还是多个潜在变量的概率主题模型,都是在应用分布式表示。下图的神经网络语言模型(NNLM)采用的就是文本分布式表示。而词向量(word embedding)是训练该语言模型的一个附加产物,即图中的Matrix C。

神经网络语言模型(NNLM)

尽管词的分布式表示在86年就提出来了,但真正火起来是13年google发表的两篇word2vec的paper,并随之发布了简单的word2vec工具包,并在语义维度上得到了很好的验证,极大的推动了文本分析的进程。

文本的表示通过词向量的表示方法,把文本数据从高纬度稀疏的神经网络难处理的方式,变成了类似图像、语言的连续稠密数据,这样我们就可以把深度学习的算法迁移到文本领域了。下图是google的词向量文章中涉及的两个模型CBOW和Skip-gram。

CBOW:上下文来预测当前词

Skip-gram:当前词预测上下文

2.4 特征提取

特征提取对应着特征项的选择特征权重的计算

特征项的选择就是指根据某个评价指标独立的对原始特征项(词语)进行评分排序,从中选取得分最高的一些特征项,过滤掉其余的特征项。

特征权重的计算:主要思路是依据一个词的重要程度与类别内的词频成正比(代表性),与所有类别中出现的次数成反比(区分度)。

当选用数学方法进行特征提取时,决定文本特征提取效果的最主要因素是评估函数的质量。常见的评估函数主要有如下方法:

2.4.1 TF-IDF

TF:词频,计算该词描述文档内容的能力 IDF:逆向文档频率,用于计算该词区分文档的的能力

  • 思想:一个词的重要程度与在类别内的词频成正比,与所有类别出现的次数成反比。
  • 评价:a.TF-IDF的精度并不是特别高。b.TF-IDF并没有体现出单词的位置信息。

2.4.2 词频(TF)

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一阈值的词删除。

  • 思想:出现频次低的词对过滤的影响也比较小。
  • 评价:有时频次低的词汇含有更多有效的信息,因此不宜大幅删减词汇。

2.4.3 文档频次法(DF)

它指的是在整个数据集中,有多少个文本包含这个单词。

  • 思想:计算每个特征的文档频次,并根据阈值去除文档频次特别低(没有代表性)和特别高的特征(没有区分度)
  • 评价:简单、计算量小、速度快、时间复杂度和文本数量成线性关系,非常适合超大规模文本数据集的特征选择。

2.4.4 互信息方法(Mutual information)

互信息用于衡量某个词与类别之间的统计独立关系,在过滤问题中用于度量特征对于主题的区分度。

  • 思想:在某个特定类别出现频率高,在其他类别出现频率低的词汇与该类的互信息较大。
  • 评价:优点-不需要对特征词和类别之间关系的性质做任何假设。缺点-得分非常容易受词边缘概率的影响。实验结果表明互信息分类效果通常比较差。

2.4.5 期望交叉熵

交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离 思想:特征词t 的交叉熵越大, 对文本类别分布的影响也越大。 评价:熵的特征选择不考虑单词未发生的情况,效果要优于信息增益。

2.4.6 信息增益

信息增益是信息论中的一个重要概念, 它表示了某一个特征项的存在与否对类别预测的影响。

  • 思想:某个特征项的信息增益值越大, 贡献越大, 对分类也越重要。
  • 评价:信息增益表现出的分类性能偏低,因为信息增益考虑了文本特征未发生的情况。 2.4.7 卡方校验

它指的是在整个数据集中,有多少个文本包含这个单词。

  • 思想:在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的.
  • 评价:卡方校验特征选择算法的准确率、分类效果受训练集影响较小,结果稳定。对存在类别交叉现象的文本进行分类时,性能优于其他类别的分类方法。

2.4.8 其他评估函数

  • 二次信息熵(QEMI)
  • 文本证据权(The weight of Evidence for Text)
  • 优势率(Odds Ratio)
  • 遗传算法(Genetic Algorithm)
  • 主成分分析(PCA)
  • 模拟退火算法(Simulating Anneal)
  • N-Gram算法

2.5 传统特征提取方法总结

传统的特征选择方法大多采用以上特征评估函数进行特征权重的计算。

但由于这些评估函数都是基于统计学原理的,因此一个缺点就是需要一个庞大的训练集,才能获得对分类起关键作用的特征,这需要消耗大量的人力和物力。

另外基于评估函数的特征提取方法建立在特征独立的假设基础上,但在实际中这个假设很难成立。

2.6 通过映射和变化来进行特征提取

特征选择也可以通过用映射或变换的方法把原始特征变换为较少的新特征 传统的特征提取降维方法,会损失部分文档信息,以DF为例,它会剔除低频词汇,而很多情况下这部分词汇可能包含较多信息,对于分类的重要性比较大。 如何解决传统特征提取方法的缺点:找到频率低词汇的相似高频词,例如:在介绍月亮的古诗中,玉兔和婵娟是低频词,我们可以用高频词月亮来代替,这无疑会提升分类系统对文本的理解深度。词向量能够有效的表示词语之间的相似度。

2.7 传统的文本分类方法。

  • 基本上大部分机器学习方法都在文本分类领域有所应用。
  • 例如:Naive Bayes,KNN,SVM,集合类方法,最大熵,神经网络等等。

2.8 深度学习文本分类方法

  • 卷积神经网络(TextCNN)
  • 循环神经网络(TextRNN)
  • TextRNN+Attention
  • TextRCNN(TextRNN+CNN)

本文采用的是卷积神经网络(TextCNN)

3.实践及结果

TextCNN网络概览图

3.1 实践步骤

  • 根据警情详情首先训练词向量模型,vector.model
  • 把警情详情文本进行分词,去除停用词,然后利用词向量来表示,每篇文档表示为250*200的矩阵(250:文档包含的词语个数,不够的以200维-5.0填充,200:每个词语用200维向量来表示)
  • 把警情训练样本分割为train-set,validation set,test set。
  • 利用设计好的卷积神经网络进行训练,并测试。

3.2 设计的卷积神经网络结构

3.3 实验结果

为了检验模型在真实数据上的分类准确率,我们又额外人工审核了1000条深圳地区的案情数据,相较于原来分类准确率的68%,提升到了现在的90%,说明我们的模型确实有效,相对于原来的模型有较大的提升。

  • 红色:word2vec+CNN(max_pooling)在验证集上的准确率走势图
  • 黄色和蓝色:word2vec+CNN(batch normalization & chunk max_pooling:2 chunk)在验证集上的准确率走势图

红色:word2vec+CNN(max_pooling) 在验证集上的Loss走势 黄色和蓝色:word2vec+CNN(batch normalization & chunk max_pooling:2 chunk)在验证集上的Loss走势

3.4 一些感悟

  • 一定要理解你的数据
  • 做好实验记录和分析
  • 大量的数据样本比改善模型来的更有效,但代价也很高
  • 阅读paper,理解原理,开阔视野,加强实践,敢于尝试,追求卓越

4. 一些参考文献

  1. CSDN-基于tensorflow的CNN文本分类
  2. CSDN-深度学习在文本分类中的应用
  3. 知乎-用深度学习解决大规模文本分类的问题-综述和实践
  4. 简书-利用tensorflow实现卷积神经网络做文本分类
  5. CSDN-利用word-embedding自动生成语义相近句子
  6. Github-Implementing a CNN for text classification in tensorflow
  7. 卷积神经网络在句子建模上的应用
  8. CSDN-自然语言处理中CNN模型几种常见的Max-Pooling操作
  9. WILDML-understanding convolutional neural network for NLP
  10. 博客园-文本深度表示模型--word2vec & doc2vec词向量模型
  11. CSDN-用docsim/doc2vec/LSH比较两个文档之间的相似度
  12. Deeplearning中文论坛-自然语言处理(三)之 word embedding
  13. CSDN-DeepNLP的学习,词嵌入来龙去脉-深度学习
  14. CSDN-自己动手写word2vec

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
4 条评论
热度
最新
请问作者在哪里可以找到这篇文章的原文呢?为什么我在谷歌学术上没有发现这篇文章呢?请问文章的题目是什么呢?求求了
请问作者在哪里可以找到这篇文章的原文呢?为什么我在谷歌学术上没有发现这篇文章呢?请问文章的题目是什么呢?求求了
回复回复点赞举报
大佬 方便分享一下网络结构的代码吗
大佬 方便分享一下网络结构的代码吗
回复回复点赞举报
感谢大佬分享
感谢大佬分享
回复回复点赞举报
学习了
学习了
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
文本数据的机器学习自动分类方法(上)
【编者按】:随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。 本文为第一部分,着重介绍文本预处理以及特征抽取的方法。第二部分将会着重介绍特征向量
小莹莹
2018/04/23
2.1K0
文本数据的机器学习自动分类方法(上)
课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例
新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。 近期,达观数据文本挖掘组负责人张健应邀在雷锋网AI研习社分享了一些NLP方面的知识和案例。 1 达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用
达观数据
2018/03/30
1.5K0
课堂总结 |  达观数据文本挖掘负责人分享文本分类方法和应用案例
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。
CreateAMind
2018/07/24
2K0
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
达观数据分享文本大数据的机器学习自动分类方法
随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程(达观数据科技联合创始人张健)。文本分类有着广泛的应用场景,例如: ●新闻网站包含大量报道文章,基于文章内容,需要将这些文章按题材进行自动分类(例如自动划分成政治、经济、军事、体育、娱乐等) ●在电子商务网站,用户进行了交易行为后对商品进行评价分类,商家需要对用户的评价划分为正面评价和负面评价
达观数据
2018/03/30
1.3K0
NLP概述和文本自动分类算法详解 | 公开课笔记
文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。
用户1737318
2019/11/19
1.8K0
NLP概述和文本自动分类算法详解 | 公开课笔记
达观数据NLP技术的应用实践和案例分析
达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。 篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖掘需求: 垃圾评论:精准识别广告、不文明用语及低质量文本。 黄反识别:准确定位文本中所含涉黄、涉政及反动内容。 标签提取:提取文本中的核心词语生成标签。 文章分类:依据预设分类体系对文本进行自动归类。 情感分析:准确分析用户透过文本表达出的情感倾向。 文章主题模型:抽取出文章的隐
机器学习AI算法工程
2018/03/15
1.6K0
达观数据NLP技术的应用实践和案例分析
基于keras的文本分类实践基于keras的文本分类实践
文本分类是自然语言处理中一个很经典也很重要的问题,它的应用很广泛,在很多领域发挥着重要作用,例如垃圾邮件过滤、舆情分析以及新闻分类等。和其他的分类问题一样,文本分类的核心问题首先是从文本中提取出分类数据的特征,然后选择合适的分类算法和模型对特征进行建模,从而实现分类。当然文本分类问题又具有自身的特点,例如文本分类需要对文本进行分词等预处理,然后选择合适的方法对文本进行特征表示,然后构建分类器对其进行分类。本文希望通过实践的方式对文本分类中的一些重要分类模型进行总结和实践,尽可能将这些模型联系起来,利用通俗易懂的方式让大家对这些模型有所了解,方便大家在今后的工作学习中选择文本分类模型。
绿盟科技研究通讯
2019/12/11
1.3K0
基于keras的文本分类实践基于keras的文本分类实践
大话文本分类
概述 文本分类是自然语言处理的重要应用,也可以说是最基础的应用。常见的文本分类应用有:新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。 01 — 传统机器学习方法 分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言,如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么,如何量化为数学表达呢。 最开始的文本分类是基于规则的,特征就是关键词,例如足球在体育类出现的次数多,就将含有足球这一关键词的文本氛围体育。后来为了便于计算,通过
CodeInHand
2018/03/26
1.6K0
大话文本分类
LSTM文本分类实战
作者:王千发 编辑:龚 赛 什么是文本分类 1 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,等等。传统的文本分类方法的流程基本是: 预处理:首先进行分词,然后是除去停用词; 将文本表示成向量,常用的就是文本表示向量空间模型; 进行特征选择,这里的特征就是词语,去掉一些对于分类帮助不大的特征。常用的特征选择的方法是词频过滤,互信息,信息增益,卡方检验等; 接下来就是构造分类器,在文本分类中常用的分类器一般是SVM,朴素贝叶斯等; 训练分类器,后面
机器学习算法工程师
2018/03/06
4.9K0
LSTM文本分类实战
基于机器学习的文本分类算法的研究[通俗易懂]
文本分类的方法属于有监督的学习方法,分类过程包括文本预处理、特征抽取、降维、分类和模型评价。本文首先研究了文本分类的背景,中文分词算法。然后是对各种各样的特征抽取进行研究,包括词项频率-逆文档频率和word2vec,降维方法有主成分分析法和潜在索引分析,最后是对分类算法进行研究,包括朴素贝叶斯的多变量贝努利模型和多项式模型,支持向量机和深度学习方法。深度学习方法包括多层感知机,卷积神经网络和循环神经网络。
全栈程序员站长
2022/06/27
9160
基于机器学习的文本分类算法的研究[通俗易懂]
Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai-20180504
本文集仅为收录自己感兴趣、感觉不错的文章与资源,方便日后查找和阅读,所以排版可能会让人觉得乱。内容会不断更新与调整。文中涉及公众号的文章链接可以会失效,知道如何生成永久链接的小伙伴还望告知。
古柳_DesertsX
2018/08/21
9200
Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai-20180504
数据分析:文本分类
本章节中所涉及的知识点偏向于机器学习的范畴,那么机器学习和数据分析有什么区别呢。简单来讲,数据分析是少量数据采样分析而机器学习是海量数据全部分析。比较好的理解一点是,数据分析会总结过去已经发生的事情,而机器学习是为了预测未来发生的事情。这两者也是有相辅相成的关系。我们可以通过机器学习预测的结果,进行数据分析,得到一个相对准确的结论,辅助人们进行决策判断等等。
马拉松程序员
2023/09/02
4010
数据分析:文本分类
【陆勤学习】文本特征提取方法研究
一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含
陆勤_数据人网
2018/02/26
1.1K0
【2023】数据挖掘课程设计:基于TF-IDF的文本分类
PyCharm 2022.3.1 (Professional Edition)
Qomolangma
2024/07/29
1490
【2023】数据挖掘课程设计:基于TF-IDF的文本分类
文本挖掘的介绍
文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。
全栈程序员站长
2022/09/07
1.3K0
文本挖掘的介绍
Python人工智能 | 二十一.CNN和Word2Vec中文文本分类详解及与机器学习分类对比
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了Keras实现RNN和LSTM的文本分类算法,并与传统的机器学习分类算法进行对比实验。这篇文章我们将继续巩固文本分类知识,主要讲解CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。注意,本文以代码为主,文本分类叙述及算法原理推荐阅读前面的文章。基础性文章,希望对您喜欢~
Eastmount
2023/02/28
3.3K0
Python人工智能 | 二十一.CNN和Word2Vec中文文本分类详解及与机器学习分类对比
网络挖掘技术——微博文本特征提取
文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,…Tn) 及其权值Wi 代表目标信息,在进行信息匹配时,
机器学习AI算法工程
2018/03/13
1.3K0
【文本分类】基于DNN/CNN的情感分类
导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提供了不同的神经网络模型供大家学习和使用。本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 文本分类是自然语言
用户1386409
2018/03/15
1.8K0
【文本分类】基于DNN/CNN的情感分类
(二)中文文本分类--机器学习算法原理与编程实践 - 简书
本章知识点:中文分词,向量空间模型,TF-IDF方法,文本分类算法和评价指标 使用的算法:朴素的贝叶斯算法,KNN最近邻算法 python库:jieba分词,Scikit-Learning 本章目标:实现小型的文本分类系统 本章主要讲解文本分类的整体流程和相关算法
会呼吸的Coder
2020/02/17
1.5K0
第二章--第三篇---文本分类
文本分类是一种基于自然语言处理技术,对给定的文本进行分类的方法。具体而言,文本分类将一篇文本分配到一个或多个预定义的类别中,这些类别通常是事先定义好的,例如新闻、评论、垃圾邮件、商品分类等。 文本分类在实际应用中有着广泛的应用,例如在舆情监控、垃圾邮件过滤、新闻分类、商品分类、情感分析等领域。通过对海量文本数据进行分类,可以帮助用户快速准确地获得所需信息,从而提高效率。此外,文本分类还可以帮助企业识别消费者的意见和情感倾向,为其提供更好的产品和服务,增强市场竞争力。
喵叔
2023/05/11
4780
推荐阅读
相关推荐
文本数据的机器学习自动分类方法(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档