我在网上搜索了二元词和一元词的文本特征提取,但仍然没有找到有用的信息,有人能告诉我它们之间的区别吗?
例如,如果我有一个文本“我有一只可爱的狗”,如果我使用二元语法方法进行特征提取和一元语法提取,会发生什么?
发布于 2017-04-18 05:33:21
我们正在尝试教机器如何进行自然语言处理。我们人类可以很容易地理解语言,但是机器不能,所以我们试图教他们特定的语言模式。因为特定的单词有意义,但是当我们组合单词(即一组单词)时,它将更有助于理解其含义。
n-gram基本上是给定窗口内出现的单词的集合,因此当
等
现在假设机器试图理解句子“我有一只可爱的狗”的意思,然后它会把句子分成一个特定的块。
,
“我”,“有”,“一个”,“可爱”,“狗”
,
“我有”,“有一只”,“一只可爱的狗”
因此,就像这台机器一样,它会把句子分成一小组词来理解它的意思
发布于 2020-02-04 20:22:03
例如:考虑句子“我吃了香蕉”。
在Unigram中,我们假设每个单词的出现与其前一个单词无关。因此,每个单词在这里都变成了一个gram(特征)。
对于unigram,我们将得到3个特征- 'I','ate','banana‘,这3个特征都是相互独立的。尽管在真正的语言中并非如此。
在Bigram中,我们假设每个单词的每次出现都只依赖于它的前一个单词。因此,两个单词在这里被算作一克(特征)。
对于bigram,我们将得到两个特征-“我吃了”和“吃了香蕉”。这是有道理的,因为模型将学习到'banana‘在'ate’之后,而不是反过来。
类似地,我们可以有三元组......n-gram。
https://stackoverflow.com/questions/43463792
复制相似问题