社区首页 >问答首页 >二元组和一元组文本特征提取有什么不同

问二元组和一元组文本特征提取有什么不同
EN

Stack Overflow用户

提问于 2017-04-18 04:50:05

回答 2查看 15.3K关注 0票数 13

我在网上搜索了二元词和一元词的文本特征提取，但仍然没有找到有用的信息，有人能告诉我它们之间的区别吗？

例如，如果我有一个文本“我有一只可爱的狗”，如果我使用二元语法方法进行特征提取和一元语法提取，会发生什么？

nlp

machine-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-04-18 05:33:21

我们正在尝试教机器如何进行自然语言处理。我们人类可以很容易地理解语言，但是机器不能，所以我们试图教他们特定的语言模式。因为特定的单词有意义，但是当我们组合单词(即一组单词)时，它将更有助于理解其含义。

n-gram基本上是给定窗口内出现的单词的集合，因此当

n=1 it is Unigram

n=2 it is bigram

n=3 it is trigram

等

现在假设机器试图理解句子“我有一只可爱的狗”的意思，然后它会把句子分成一个特定的块。

，

，它会一个接一个地考虑单词，所以每个单词都是一个单词。

“我”，“有”，“一个”，“可爱”，“狗”

，

，它会一次考虑两个单词，所以它将是双音字母，所以每两个相邻的单词都是双音字母

“我有”，“有一只”，“一只可爱的狗”

因此，就像这台机器一样，它会把句子分成一小组词来理解它的意思

票数 31

Stack Overflow用户

发布于 2020-02-04 20:22:03

例如:考虑句子“我吃了香蕉”。

在Unigram中，我们假设每个单词的出现与其前一个单词无关。因此，每个单词在这里都变成了一个gram(特征)。

对于unigram，我们将得到3个特征- 'I'，'ate'，'banana‘，这3个特征都是相互独立的。尽管在真正的语言中并非如此。

在Bigram中，我们假设每个单词的每次出现都只依赖于它的前一个单词。因此，两个单词在这里被算作一克(特征)。

对于bigram，我们将得到两个特征-“我吃了”和“吃了香蕉”。这是有道理的，因为模型将学习到'banana‘在'ate’之后，而不是反过来。

类似地，我们可以有三元组......n-gram。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43463792

复制

相似问题

问二元组和一元组文本特征提取有什么不同
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问二元组和一元组文本特征提取有什么不同EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问二元组和一元组文本特征提取有什么不同
EN