转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。
自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛,上一周主要在做这一个比赛,看了一写论文和资料,github上搜刮下。。感觉一下子接触的知识很多,自己乘热打铁整理下吧。
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/
概述 文本分类是自然语言处理的重要应用,也可以说是最基础的应用。常见的文本分类应用有:新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。 01 — 传统机器学习方法 分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言,如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么,如何量化为数学表达呢。 最开始的文本分类是基于规则的,特征就是关键词,例如足球在体育类出现的次数多,就将含有足球这一关键词的文本氛围体育。后来为了便于计算,通过
我们会发现电影评价数和电影的投票数是极强相关的,pearsonr系数达到了0.9:
tensorflow是谷歌google的深度学习框架,tensor中文叫做张量,flow叫做流。 CNN是convolutional neural network的简称,中文叫做卷积神经网络。 文本分类是NLP(自然语言处理)的经典任务。
其实最近挺纠结的,有一点点焦虑,因为自己一直都期望往自然语言处理的方向发展,梦想成为一名NLP算法工程师,也正是我喜欢的事,而不是为了生存而工作。我觉得这也是我这辈子为数不多的剩下的可以自己去追求自己喜欢的东西的机会了。然而现实很残酷,大部分的公司算法工程师一般都是名牌大学,硕士起招,如同一个跨不过的门槛,让人望而却步,即使我觉得可能这个方向以后的路并不如其他的唾手可得的路轻松,但我的心中却一直有一股信念让我义无反顾,不管怎样,梦还是要有的,万一实现了呢~
原先写过两篇文章,分别介绍了传统机器学习方法在文本分类上的应用以及CNN原理,然后本篇文章结合两篇论文展开,主要讲述下CNN在文本分类上的应用。前面两部分内容主要是来自两位博主的文章(文章中已经给出原文链接),是对两篇论文的解读以及总结,基本上阐释了CNN文本分类模型;后半部分讲一个实例和项目实战。
原先写过两篇文章,分别介绍了传统机器学习方法在文本分类上的应用以及CNN原理,然后本篇文章结合两篇论文展开,主要讲述下CNN在文本分类上的应用。前面两部分内容主要是来自两位博主的文章(文章中已经给出原文链接),是对两篇论文的解读以及总结,基本上阐释了CNN文本分类模型;后半部分讲一个实例和项目实战
IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW
因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《如何用 Python 和深度迁移学习做文本分类?》一文分享给你)。ULMfit 和 BERT 都属于预训练语言模型(Pre-trained Language Modeling),具有很多的相似性。
自然语言处理本身是为了让计算机能够处理、理解以及运用人类语言,从而达到人与计算机之间的有效通讯,为了研究信息检索、情感分析、文本分类、智能问答、摘要提取、文本挖掘,舆情分析、知识图谱等方面的问题,解决在词态、句法、语义上的歧义性,这里主要是介绍我个人在使用相关算法学习时使用的开源标注工具和标注平台,以供参考。
深度学习模型在计算机视觉与语音识别方面取得了卓越的成就,在 NLP 领域也是可以的。将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似 n-gram 的关键信息),从而能够更好地捕捉局部相关性。
文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification
前篇 一文了解自然语言处理的每个范畴用到的核心技术,难点和热点(1), 这部分涉及的NLP范畴包括: 中文分词 词性标注 句法分析 文本分类背景 下面介绍,文本分类常用的模型,信息检索,信息抽取。 8文本分类模型 近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,深度神经网络模型也在文本分类任务上取得了巨大进展。文本分类模型划分为以下三类: 基于规则的分类模型 基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以
近年来,随着Internet的迅猛发展,网络信息和数据信息不断扩展,如何有效利用这一丰富的数据信息,己成为广大信息技术工作者所关注的焦点之一。为了快速、准确的从大量的数据信息中找出用户所需要的信息,文本信息的自动分析也成为了当前的迫切需求。对文本信息的分析中的一个主要技术就是文本分类。文本分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。文本分类是指将文本按一定的规则归于一个或多个类别中的技术。近年来,许多统计的方法和机器学习的方法都应用到文本分类方面,如朴素贝叶斯方法(NB)、K-近邻方法(KNN)、支持向量机方法(SVM)等。
新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。 近期,达观数据文本挖掘组负责人张健应邀在雷锋网AI研习社分享了一些NLP方面的知识和案例。 1 达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用
fastNLP是一款轻量级的自然语言处理(NLP)工具包,目标是快速实现NLP任务以及构建复杂模型。
近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。
中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html
SnowNLP是一个Python库,用于处理中文文本的情感分析、文本分类和关键词提取等自然语言处理任务。它基于概率模型和机器学习算法,具有简单易用的接口和丰富的功能。
Keras是Python中以CNTK、Tensorflow或者Theano为计算后台的一个深度学习建模环境。
我跟几位BAT老哥聊了下NLP全路径学习的事情,总结出以下内容,包含: 学习NLP需要具备哪些基础 NLP全路径各任务学习的项目 01 学习NLP需要具备的基础 01 机器学习 熟悉简单的机器学习模型。例如:逻辑回归、决策树、朴素贝叶斯、隐马尔科夫模型、K-Means、正则化方法等;有部分高级机器学习基础更好。例如:集成学习(随机森林、GBDT、XGB、Stacking等)、条件随机场CRF、贝叶斯网络、支持向量机、主题模型等。 02 深度学习 熟悉简单的神经网络基础。例如:神经元模型、多层感知机、反向传播
达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。 篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖掘需求: 垃圾评论:精准识别广告、不文明用语及低质量文本。 黄反识别:准确定位文本中所含涉黄、涉政及反动内容。 标签提取:提取文本中的核心词语生成标签。 文章分类:依据预设分类体系对文本进行自动归类。 情感分析:准确分析用户透过文本表达出的情感倾向。 文章主题模型:抽取出文章的隐
LTP [1]- 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。 NLPIR汉语分词系统 [2]- 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。 结巴中文分词 [3]- 支持三种
[ 导读 ]香侬科技近期提出 Glyce,首次在深度学习的框架下使用中文字形信息(Glyph),横扫 13 项中文自然语言任务记录,其中包括:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4) 命名实体识别 (5) 词性标注 (6) 句法依存分析 (7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。
bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了Keras实现RNN和LSTM的文本分类算法,并与传统的机器学习分类算法进行对比实验。这篇文章我们将继续巩固文本分类知识,主要讲解CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。注意,本文以代码为主,文本分类叙述及算法原理推荐阅读前面的文章。基础性文章,希望对您喜欢~
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记:http://t.cn/RHea2Rs ),同时也参加了 CCF 大数据与计算智能大赛(BDCI)2017 的一个文本分类问题的比赛:让 AI 当法官,并取得了最终评测第四名的成绩 (比赛的具体思路和代码参见 github 项目 repo:http://t.cn/RHeaczg )。因此,本文总结了文本分类相关的深度学习模型、优化思路以及今后可以进行的一些工作。 文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此,本文总结了文本分类相关的深度学习模型、优化思路以及今后可以进行的一些工作。欢迎转载 1. 文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛。如: 垃圾邮件分类:二分类问
基于CNN的文本分类问题已经有了一定的研究成果,CNN做句子分类的论文可以参看: Convolutional Neural Networks for Sentence Classification。
上一篇文章中一直围绕着CNN处理图像数据进行讲解,而CNN除了处理图像数据之外,还适用于文本分类。CNN模型首次使用在文本分类,是Yoon Kim发表的“Convolutional Neural Networks for Sentence Classification”论文中。在讲解text-CNN之前,先介绍自然语言处理和Keras对自然语言的预处理。 自然语言处理就是通过对文本进行分析,从文本中提取关键词来让计算机处理或理解自然语言,完成一些有用的应用,如:情感分析,问答系统等。比如在情感分析中,其本
前言 文本分类任务是一个经久不衰的课题,其应用包括垃圾邮件检测、情感分析等。 传统机器学习的做法是先进行特征工程,构建出特征向量后,再将特征向量输入各种分类模型(贝叶斯、SVM、神经网络等)进行分类。 随着深度学习的发展以及RNN、CNN的陆续出现,特征向量的构建将会由网络自动完成,因此我们只要将文本的向量表示输入到网络中就能够完成自动完成特征的构建与分类过程。 就分类任务而言,CNN比RNN更为合适。CNN目前在图像处理方向应用最为广泛,在文本处理上也有一些的应用。本文将参考 Denny Brit
【编者按】:随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。 本文为第一部分,着重介绍文本预处理以及特征抽取的方法。第二部分将会着重介绍特征向量
本文主要介绍了如何使用深度学习解决文本分类问题,通过对比多种深度学习模型,包括传统的机器学习方法、基于词嵌入的word2vec和基于神经网络的CNN和RNN,阐述了在自然语言处理领域应用深度学习方法的可行性和优势。同时,作者还分享了在实践过程中的一些感悟,包括数据的重要性、实验记录和分析以及尝试多种方法以找到最适合自己问题的解决方案。
▌导语 ---- 传统的向量空间模型(VSM)假设特征项之间相互独立,这与实际情况是不相符的,为了解决这个问题,可以采用文本的分布式表示方式(例如 word embedding形式),通过文本的分布式表示,把文本表示成类似图像和语音的连续、稠密的数据。 这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量和卷积神经网络的文本分类方法不仅考虑了词语之间的相关性,而且还考虑了词语在文本中的相对位置,这无疑会提升在分类任务中的准确率。 经过实验,该方法在验证数据集上的F1-score值达到了0.937
本文采用复旦中文文本分类语料库,下载链接:https://download.csdn.net/download/laobai1015/10431543
论文:Topic Memory Networks for Short Text Classification
深度学习最初在之所以在图像和语音取得巨大成功,一个很重要的原因是图像和语音原始数据是连续和稠密的,有局部相关性。应用深度学习解决大规模文本分类问题最重要的是解决文本表示,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程,端到端的解决问题。接下来会分别介绍
文本分类器,提供多种文本分类和聚类算法,支持句子和文档级的文本分类任务,支持二分类、多分类、多标签分类、多层级分类和Kmeans聚类,开箱即用。python3开发。
目前,机器学习中的K近邻(KNN)分类算法和支持向量机(SVM)算法被认为是处理文本分类的最好方法。但KNN分类算法有以下的缺陷:
本文介绍了神经网络在计算机视觉领域的应用,包括卷积神经网络、循环神经网络等,重点讲解了卷积神经网络在目标检测、图像分割、图像生成和风格迁移等方面的应用,以及循环神经网络在语音识别、自然语言处理等方面的应用。同时,本文还介绍了神经网络在计算机视觉领域中的前沿发展和应用,包括注意力机制、生成对抗网络、神经风格迁移等技术,并探讨了神经网络在计算机视觉领域未来的研究方向和挑战。
本文集仅为收录自己感兴趣、感觉不错的文章与资源,方便日后查找和阅读,所以排版可能会让人觉得乱。内容会不断更新与调整。文中涉及公众号的文章链接可以会失效,知道如何生成永久链接的小伙伴还望告知。
资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。
从事NLP以来,最常接触的就是各种文本标注工具,现在网上能找到的支持中文文本标注的开源工具不多。在我们团队发展前期,尝试了很多不同的开源工具,像是BRAT,YEDDA,DeepDive,由于之前做的大多是实体标注的项目,这些开源工具基本可以满足需求,但在使用过程中也存在着诸多不便,比如安装过程十分复杂,界面都是英文的,交互做的不够清晰,这些对标注人员都很不友好。
领取专属 10元无门槛券
手把手带您无忧上云