Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >文本分类问题

文本分类问题
EN

Stack Overflow用户
提问于 2019-05-09 13:01:08
回答 1查看 71关注 0票数 0

我是ML的新手,我试着把文本分成两类。我的数据集是使用Tokenizer从医学文本中创建的,它是不平衡的,有572条记录用于训练,471条记录用于测试。

对于我来说,很难建立具有不同预测输出的模型,几乎所有的值都是相同的。我已经厌倦了使用this等示例中的模型,并亲自调整参数,但输出总是毫无意义

下面是标记化并准备好的data

下面是脚本:Gist

我使用的示例模型

代码语言:javascript
运行
AI代码解释
复制
    sequential_model = keras.Sequential([
        layers.Dense(15, activation='tanh',input_dim=vocab_size),
        layers.BatchNormalization(),
        layers.Dense(8, activation='relu'),
        layers.BatchNormalization(),
        layers.Dense(1, activation='sigmoid')
    ])

    sequential_model.summary()
    sequential_model.compile(optimizer='adam',
                             loss='binary_crossentropy',
                             metrics=['acc'])

    train_history = sequential_model.fit(train_data,
                                         train_labels,
                                         epochs=15,
                                         batch_size=16,
                                         validation_data=(test_data, test_labels),
                                         class_weight={1: 1, 0: 0.2},
                                         verbose=1)

不幸的是,我不能共享数据集。此外,我还尝试将keras.utils.to_categorical与类标签一起使用,但没有任何帮助

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-11 21:20:57

你的损失曲线是有意义的,因为我们看到的是网络对训练集的过度拟合,而我们看到的是通常的碗形验证曲线。

为了使您的网络性能更好,您可以始终加深它(更多层),扩大它(每个隐藏层更多单位)和/或添加更多非线性激活函数,以便您的层能够映射到更大范围的值。

此外,我认为你最初获得如此多重复值的原因是由于你的网络规模。显然,每个数据点大约有20,000个特征(相当大的特征空间);网络的大小太小,因此可以映射到的输出值的可能空间也较小。我用一些较大的隐藏单元层(并增加了层的数量)进行了一些测试,并能够看到预测值确实有所不同: 0.519,0.41,0.37...

你的网络性能不同也是可以理解的,因为你拥有的功能数量大约是你训练规模的50倍(通常你想要更小的比例)。请记住,对于如此小的训练和测试数据集,训练太多的时期(例如超过10个)来看到损失的改善并不是很好的实践,因为您可能会严重过度拟合,并且可能是您的网络需要更宽/更深的迹象。

所有这些因素,如层大小,隐藏单元大小,甚至时期数,都可以被视为超参数。换句话说,将训练数据的某个百分比作为验证拆分的一部分,逐一检查每一类因素并进行优化,以获得最高的验证准确性。公平地说,你的训练集不是太高,但我认为你应该把大约10-20%的训练作为一种验证集来调整这些超参数,因为你每个数据点都有这么多的特征。在这个过程的最后,你应该能够确定你真正的测试准确性。这就是我将如何优化以获得此网络的最佳性能。希望这能有所帮助。

More about training, test, val split

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56060044

复制
相关文章
文本分类又来了,用 Scikit-Learn 解决多类文本分类问题
在商业领域有很多文本分类的应用,比如新闻故事通常由主题来分类;内容或产品常常被打上标签;基于如何在线谈论产品或品牌,用户被分成支持者等等。
AI研习社
2018/07/26
1.1K0
文本分类又来了,用 Scikit-Learn 解决多类文本分类问题
机器学习-文本分类(2)-新闻文本分类
参考:https://mp.weixin.qq.com/s/6vkz18Xw4USZ3fldd_wf5g
西西嘛呦
2020/08/26
9830
机器学习-文本分类(2)-新闻文本分类
深度学习解决文本分类问题的最佳实践
文本分类(Text classification)描述了一类常见的问题,比如预测推文(Tweets)和电影评论的情感,以及从电子邮件中区分出垃圾邮件。
StoneDemo
2018/02/07
1.5K0
【文本分类】基于双层序列的文本分类模型
导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提供了不同的神经网络模型供大家学习和使用。本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 文本分类是自然语言
用户1386409
2018/03/15
1.4K0
【文本分类】基于双层序列的文本分类模型
NLP文本分类
其实最近挺纠结的,有一点点焦虑,因为自己一直都期望往自然语言处理的方向发展,梦想成为一名NLP算法工程师,也正是我喜欢的事,而不是为了生存而工作。我觉得这也是我这辈子为数不多的剩下的可以自己去追求自己喜欢的东西的机会了。然而现实很残酷,大部分的公司算法工程师一般都是名牌大学,硕士起招,如同一个跨不过的门槛,让人望而却步,即使我觉得可能这个方向以后的路并不如其他的唾手可得的路轻松,但我的心中却一直有一股信念让我义无反顾,不管怎样,梦还是要有的,万一实现了呢~
UM_CC
2022/09/22
4750
NLP文本分类
TextCNN(文本分类)
(2)词转成向量(word2vec,Glove,bert,nn.embedding)
全栈程序员站长
2022/09/15
5910
TextCNN(文本分类)
新闻文本分类
一个很粗糙的新闻文本分类项目,解决中国软件杯第九届新闻文本分类算法的问题,记录了项目的思路及问题解决方法
客怎眠qvq
2022/11/01
1.2K0
新闻文本分类
BERT文本分类
本文使用的是RoBERTa-wwm-ext,模型导入方式参见https://github.com/ymcui/Chinese-BERT-wwm。由于做了全词遮罩(Whole Word Masking),效果相较于裸的BERT会有所提升。
luxuantao
2021/02/24
1.9K0
textRNN/textCNN文本分类
textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。
大数据技术与机器学习
2019/12/05
2.3K0
大话文本分类
概述 文本分类是自然语言处理的重要应用,也可以说是最基础的应用。常见的文本分类应用有:新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。 01 — 传统机器学习方法 分类问题一般的步骤可以分为特征提取、模型构建、算法寻优、交叉验证等。对于文本而言,如何进行特征提取是一个很重要也很有挑战性的问题。文本的特征是什么,如何量化为数学表达呢。 最开始的文本分类是基于规则的,特征就是关键词,例如足球在体育类出现的次数多,就将含有足球这一关键词的文本氛围体育。后来为了便于计算,通过
CodeInHand
2018/03/26
1.6K0
大话文本分类
长文本分类
在NLP领域中,文本分类舆情分析等任务相较于文本抽取,和摘要等任务更容易获得大量标注数据。因此在文本分类领域中深度学习相较于传统方法更容易获得比较好的效果。 文本分类领域比较重要的的深度学习模型主要有FastText,TextCNN,HAN,DPCNN。
故事尾音
2019/12/18
1.6K0
文本分类算法之–贝叶斯文本分类算法[通俗易懂]
例如文档:Good good study Day day up可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。在文本分类中,假设我们有一个文档d∈X,类别c又称为标签。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c>∈X×C。例如:<d,c>={Beijing joins the World Trade Organization, China}对于这个只有一句话的文档,我们把它归类到 China,即打上china标签。
全栈程序员站长
2022/09/05
6690
GolVe向量化做文本分类向量化文本分类
第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本:
sladesal
2018/10/08
1.7K0
GolVe向量化做文本分类向量化文本分类
文本分类(六):使用fastText对文本进行分类--小插曲
http://blog.csdn.net/lxg0807/article/details/52960072
bear_fish
2018/09/19
1.7K0
NLTK-007:分类文本(文档情感分类)
之前我们看了几个例子,那里文档已经按类别标记。使用这些语料库,我们可以建立分类器。自动给新文档添加适当的类别标签。 首先我们构造一个标记了相应类别的文档清单,对于这个例子,我选择了nltk中的电影评论语料库,将每个评论分为正面或者负面。
李玺
2021/11/22
4090
NLTK-007:分类文本(文档情感分类)
【文本分类】基于DNN/CNN的情感分类
导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提供了不同的神经网络模型供大家学习和使用。本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 文本分类是自然语言
用户1386409
2018/03/15
1.8K0
【文本分类】基于DNN/CNN的情感分类
二分类问题:基于BERT的文本分类实践!附完整代码
寄语:Bert天生适合做分类任务。文本分类有fasttext、textcnn等多种方法,但在Bert面前,就是小巫见大巫了。
Datawhale
2020/03/19
6.1K1
二分类问题:基于BERT的文本分类实践!附完整代码
文本分类算法综述
文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者,训练集法更多的来自计算机或人工智能研究领域,而分类表法则更多地来自突出情报领域。本文主要介绍前一种。
全栈程序员站长
2022/06/27
6060
LSTM文本分类实战
作者:王千发 编辑:龚 赛 什么是文本分类 1 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,等等。传统的文本分类方法的流程基本是: 预处理:首先进行分词,然后是除去停用词; 将文本表示成向量,常用的就是文本表示向量空间模型; 进行特征选择,这里的特征就是词语,去掉一些对于分类帮助不大的特征。常用的特征选择的方法是词频过滤,互信息,信息增益,卡方检验等; 接下来就是构造分类器,在文本分类中常用的分类器一般是SVM,朴素贝叶斯等; 训练分类器,后面
机器学习算法工程师
2018/03/06
4.9K0
LSTM文本分类实战
文本分类六十年
文本分类是自然语言处理中最基本而且非常有必要的任务,大部分自然语言处理任务都可以看作是个分类任务。近年来,深度学习所取得的前所未有的成功,使得该领域的研究在过去十年中保持激增。这些文献中已经提出了许许多多的算法模型、基准数据集一集评测指标,因此需要一个对这个领域进行全面而且跟进趋势的调查。这里我们介绍基于机器学习和深度学习的文本分类,主要内容来自北航、伊利诺伊大学等学者联合发表论文 A Survey on Text Classification: From Shallow to Deep Learning。
AI科技大本营
2020/12/09
1.1K0
文本分类六十年

相似问题

Java文本分类问题

43

文本分类问题:这类分类的名称和方法

116

基于Weka问题的文本分类

10

问题分类标签文本,错误的预测?

10

2000多类多文本分类问题

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档