社区首页 >问答首页 >二元组和一元组文本特征提取有什么不同

二元组和一元组文本特征提取有什么不同
EN

Stack Overflow用户
提问于 2017-04-18 04:50:05
回答 2查看 15.3K关注 0票数 13

我在网上搜索了二元词和一元词的文本特征提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?

例如,如果我有一个文本“我有一只可爱的狗”,如果我使用二元语法方法进行特征提取和一元语法提取,会发生什么?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-04-18 05:33:21

我们正在尝试教机器如何进行自然语言处理。我们人类可以很容易地理解语言,但是机器不能,所以我们试图教他们特定的语言模式。因为特定的单词有意义,但是当我们组合单词(即一组单词)时,它将更有助于理解其含义。

n-gram基本上是给定窗口内出现的单词的集合,因此当

  • n=1 it is Unigram

  • n=2 it is bigram

  • n=3 it is trigram

现在假设机器试图理解句子“我有一只可爱的狗”的意思,然后它会把句子分成一个特定的块。

  1. ,它会一个接一个地考虑单词,所以每个单词都是一个单词。

“我”,“有”,“一个”,“可爱”,“狗”

  1. ,它会一次考虑两个单词,所以它将是双音字母,所以每两个相邻的单词都是双音字母

“我有”,“有一只”,“一只可爱的狗”

因此,就像这台机器一样,它会把句子分成一小组词来理解它的意思

票数 31
EN

Stack Overflow用户

发布于 2020-02-04 20:22:03

例如:考虑句子“我吃了香蕉”。

在Unigram中,我们假设每个单词的出现与其前一个单词无关。因此,每个单词在这里都变成了一个gram(特征)。

对于unigram,我们将得到3个特征- 'I','ate','banana‘,这3个特征都是相互独立的。尽管在真正的语言中并非如此。

在Bigram中,我们假设每个单词的每次出现都只依赖于它的前一个单词。因此,两个单词在这里被算作一克(特征)。

对于bigram,我们将得到两个特征-“我吃了”和“吃了香蕉”。这是有道理的,因为模型将学习到'banana‘在'ate’之后,而不是反过来。

类似地,我们可以有三元组......n-gram。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43463792

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文