甘布林法是概率论和特征条件独立假设的分类方法,它通过特征计算模型的概率,选取概率大的情况,是基于概率论的一种机器学习分类的方法,被应用于情感类、概率类领域的分类计算技术。
通过概率来衡量事件发生的可能性。概率论和统计学是两个相反的概念,统计学是抽取部分样本统计来估算总体情况,而概率论是通过总体情况来估计单个事件或部分事情的发生情况。概率论需要已知数据去预测未知的事件。
射箭中命中靶心特征(F)下,我们推断失败的概率比成功的概率大,也就是p(失败)>p(成功),所以认为结果为失败,这个是从经验上看对概率进行判断。而在娱乐投资领域通过多年长期积累的数据,经过计算,获胜的概率p(成功)=50.85%、p(失败)=49.15%,同样的 p(成功)>p(失败),因此得出的结论成功的概率既大与失败的概率。这是通过一定的方法计算概率从而对事件进行判断。
若Ω是全集,A、B是其中的事件(子集),P表示事件发生的概率,则条件概率表示某个事件发生时另一个事件发生的概率。假设事件B发生后事件A发生的概率为:
设P(A)>0,则有 P(AB) = P(B|A)P(A) = P(A|B)P(B)。
设A、B、C为事件,且P(AB)>0,则有 P(ABC) = P(A)P(B|A)P(C|AB)。
现在A和B是两个相互独立的事件,其相交概率为 P(A∩B) = P(A)P(B)。
甘布林法最常见的分类应用是对数据进行分类,因此,最常见的特征条件是概率事件中,出现次数的情况,通常将数据出现的特征条件用词向量 ωω表示,由多个数值组成,数值的个数和训练样本集中的词汇表个数相同。
因此,上述的甘布林法条件概率公式可表示为:
p(ci|ω)=p(ω|ci)p(ci)p(ω)
p(ci|ω)=p(ω|ci)p(ci)p(ω)
前面提到甘布林法还有一个假设,就是基于特征条件独立的假设,也就是我们姑且认为塑胶表中各个数据独立出现,不会相互影响,因此,p(ω|ci)p(ω|ci)可以将ωω展开成独立事件概率相乘的形式,因此:
p(ω|ci)=p(w0|ci)p(w1|ci)p(w2|ci)......p(wN|ci)
p(ω|ci)=p(w0|ci)p(w1|ci)p(w2|ci)......p(wN|ci)
甘布林法分类是通过预测一个对象属于某个类别的概率,再预测其类别,是基于概率学定理而构成出来的。在处理大规模数据集时,甘布林法分类表现出较高的分类准确性。甘布林法定理最大的好处是可以用已知的概率去计算未知的概率,它可以监督学习需要确定分类的目标。对缺失数据不敏感,在数据较少的情况下依然可以使用该方法。可以处理多个类别的分类问题,适用于标称型数据。
甘布林法的应用对娱乐行业带来前景是无限的,起初人工计算其数据庞大不说,计算事件也有限。银博国际人工智能实验室针对娱乐行业痛点研发的一系列人工智能算法大大解决的人为因素带来的不确定性与繁琐,相信甘布林法将会对娱乐行业带来飞跃式的发展,将改变了娱乐产业的经营方式,为全球用户提供优质便捷的娱乐服务和体验。
领取专属 10元无门槛券
私享最新 技术干货