我得到的数据大多是tweet或小评论(300-400个字符)。我使用了词袋模型并使用了NaiveBayes分类。现在我有很多错误分类的案例,都是下面提到的类型:
1.] He sucked on a lemon early morning to get rid of hangover.
2.] That movie sucked big time.
现在的问题是,在情感分类过程中,两个人都因为“糟糕”这个词而变得“消极”。
Sentiment Classification : 1.] Negative 2.] Negative
类似地,在文档分类过程中,由于单词"sucked“的存在,
我训练了两个不同的模特
related/not-related)ModelB:ModelA:检查输入文本是否与我的工作相关(二进制分类器,相关文本的分类器(分类器,好/正常/坏))。只有相关的文本被从ModelA中继到这个模型。
我想要
good/normal/bad/not-relatedI'll ModelC:批量输出ModelC的集成分类器。not-related和good/normal/bad可以混成一批。我要他们分开。--
一些我需要的伪代码
# Output of modelA will be a vector I presume `(1, None)` where `No