版权所有©德塔精要,转载请注明出处
贝叶斯算法作为机器学习的十大经典算法之一,在推动机器学习技术的发展的作用不言而喻。通常大家都了解贝叶斯算法在文本分类上表现效果不错。但是对于算法的原理除了专业的算法工作人员外,其他人了解甚少,今天和大家聊一聊贝叶斯算法。
1
算法核心原理
贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。
维基百科给出的定义如上,看起来比较晦涩,下面我们在来看一下它的核心公式。
结合维基百科的定义和他的核心公式,可以看出贝叶斯定理主要使用了条件概率方面的知识。通俗的讲解就是如果知道A事件,B事件分别发生的概率,还有在A事件发生时B事件发生的概率。根据上面公式就可以知道在B事件发生的情况下A事件发生的概率是多少。
算法的主要想法是通过利用观察到的情况(也就是事件发生的概率)来判定未发生的事件的概率是多少。所以观察到的情况(样本数据)是否能真实反应事件发生的概率情况直接影响未来预测的准确度。了解了算法的基本思想之后,我们聊一聊贝叶斯算法的具体应用方式。
2
朴素贝叶斯分类
这个算法叫朴素贝叶斯的原因是因为他的原理太朴素了,就是根据贝叶斯定理,根据收集的样本数据进行计算条件概率,属于哪一类概率比较大,就判定为哪一类。有一个经典的例子,就是你走在大街上,看见一个黑人,然后预测他是那个大洲的,理论上最大的就是非洲人,虽然美洲和亚洲也有一部分黑人,但是在概率上来说,非洲的可能性更大。这种想法原理就是朴素贝叶斯的基本思想。
同时根据求条件概率的方式不同,又分为高斯朴素贝叶斯和多项式朴素贝叶斯等细分类。根据如定理中的公式,条件概率有时呈现连续分布,无法直接求出条件概率,这种情况经常需要参考高斯分布,来求得。多项式朴素贝叶斯参考高斯分布。
3
贝叶斯网络
一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件概率表集合。DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。
贝叶斯网络有一条重要的性质,每一个节点发生的概率,只受它输入节点的影响,与他不是直接前辈关系的节点不影响当前节点发生的概率。如下图所示。
节点D发生的概率只受C事件的直接影响,A事件的间接影响。
贝叶斯网络作为一种不确定的因果关系推理模型,擅长与概率推理和决策,就是当不知道前置条件是否发生,只知道发生的概率的情况下,可以借助贝叶斯网络推理后续事件发生的概率。在医疗诊断预测,危险事件识别等方面有着广泛的应用。
今天带大家简单回顾了一下机器学习中大名顶顶的贝叶斯算法,以及贝叶斯算法引申出的贝叶斯分类和贝叶斯网络。让大家整体对贝叶斯算法有一个全面的认识。当然,如果需要在实际工作中深入使用,本文内容只能算是整体的简介,还需要实际开发人员深入学习算法使用方式,框架,参数调节等相关工作。
《浅谈大数据第一期》
德塔 | 专家团队
干货 | 共41篇
版权所有©️德塔大数据研究院
转载请注明出处
DaaS慧报(有温度的大数据报告)
大数据落地方案
大数据思想
主编:林帅兵|德塔大数据研究院院长
责任编辑:孙一欣
责任美编:彭 琦
德塔大数据研究院专家团队
师文轩|德塔大学名誉校长
李智博/董旭/李宝环/王凤君/孙一欣/林帅兵 ……
欢迎在下方留言,“塔塔”会在第一时间回复您!
领取专属 10元无门槛券
私享最新 技术干货