nltk包的内置语音标记似乎没有针对我的用例()进行优化。显示它使用了一个名为maxent_treebank_pos_tagger的保存的、经过预先训练的分类器。
是什么创造了maxent_treebank_pos_tagger/english.pickle?我猜外面有一个标记语料库,用来训练这个标记者,所以我想我正在寻找(a)标记语料库和(b)基于标记语料库训练标记者的确切代码。
除了大量的googling之外,到目前为止,我试图直接查看.pickle对象,以找到它内部的任何线索,从下面开始
from nltk.data import load
x = load("nltk_data
我试图用C#和F#领域中的不同算法的相对速率来评估WekaSharp,而我感兴趣的算法之一是马尔可夫链。我知道Weka有一个HMM应用程序,但是我无法将它实现到WekaSharp中,我想知道是否有一种方法可以修改J48算法以适应这个目的。我知道J48和一阶马尔可夫链之间有一些相似之处,但我试图确定需要修改什么,以及这是否是一件合理的事情。下面是在殷朱的J48中实现的WekaSharp:
type J48() =
static member DefaultPara = "-C 0.25 -M 2"
static member MakePara(?binarySp
在压缩和信息论中,源的熵是源符号所能传递的平均信息量(以位为单位)。非正式地说,如果我们确定一个事件的结果,那么熵就会变小。
J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.
熵(Shannon和Renyis)作为目标函数而不是均方误差,被应用于学习中。
我的问题是
最小误差熵的基本原理是什么?当熵最大时,我们能对信
例如,
如果我需要生成一个随机数。我使用一个很好的熵源来生成r。
然后,我添加由坏熵生成的值a、b和c,从而使new entropy = r + a + b + c
整体熵会是怎样的呢?
加号意味着添加而不是连接。我相信,如果我们连接,那么这将导致一个整体的坏熵,因为如果我们假设每个a,b,c,r每个贡献64位到256位熵。实际上,我们只有64位来自r的良好熵。这是我的直觉和连接。
Information Gain= (Information before split)-(Information after split)
信息增益可以通过上面的方程求出。但我不明白的是,这种信息增益的确切含义是什么?这是否意味着通过根据给定的属性或类似的东西进行拆分,可以获得或减少多少信息?
链接到答案:
如何计算所述所选密码的熵?
从2000个单词的列表中随机选择4个不同的单词。单词可以包含特殊的字符替换。例如,可以使用下列替换:
Sub = {a; 0; i; e; /a; 8}
Letter a -> @; Letter o -> 0; Letter i -> {1; !} Letter e -> 9;
Letter a -> 6; Letter 8 -> &
假定以统一方式选择替代品:
ex: i is mapped to {i; 1; !} with the same probability.
假设90%的单词在Sub中有一个字母,50