前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

作者头像
韩曙亮
发布2023-03-27 19:33:57
1.1K0
发布2023-03-27 19:33:57
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录
P(H_1)

P(H_0)
P(D|H_1)

P(D|H_0)

I . 垃圾邮件过滤 需求 及 表示方法

1 . 需求 : 收到一封邮件 , 判断该邮件是否是垃圾邮件 ;

2 . 表示方法 :

① 收到邮件

D

:

D

表示收到的邮件 , 其有一定的特征 , 如包含指定的单词 等 ;

② 收到邮件

D

的概率 :

D

是符合一定要求的邮件 , 不是每一个收到的邮件都有

D

的特征 ;

③ 垃圾邮件

H_0

: 表示收到

D

邮件是

H_0

垃圾邮件 ; (

H_0

泛指垃圾邮件 , 不是指某一封邮件 )

④ 正常邮件

H_1

: 表示收到

D

邮件是

H_1

正常邮件 ; (

H_1

泛指正常邮件 , 不是指某一封邮件 )

II . 贝叶斯方法 步骤 1 : 提出假设

1 . 提出假设 : 收到邮件事件是

D

, 该邮件是否是垃圾邮件 , 只有两个假设 , 是 或 否 ,

① 假设

1

: 假设 收到的

D

邮件 是垃圾邮件

H_0

;

② 假设

2

: 假设 收到的

D

邮件 是正常邮件

H_1

;

III . 贝叶斯方法 步骤 2 : 计算垃圾邮件假设概率

1 . 计算该邮件是垃圾邮件的概率 :

① 需要计算的概率 : 收到邮件

D

后 , 该邮件是垃圾邮件

H_0

, 概率是

P(H_0|D)

;

② 问题 : 很明显 , 这个概率求不出来 ;

2 . 引入贝叶斯公式 :

① 逆向概率 ( 似然概率 | 条件概率 ) : 收到垃圾邮件后 , 该邮件是

D

的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;

② 先验概率 : 收到

H_0

邮件的概率是已知的 ;

③ 后验概率 : 贝叶斯公式计算该邮件

D

是垃圾邮件的概率 :

P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}
IV . 贝叶斯方法 步骤 2 : 计算正常邮件假设概率

1 . 计算该邮件是正常邮件的概率 :

① 计算的概率 : 收到邮件

D

后 , 该邮件是正常邮件

H_1

, 概率是

P(H_1|D)

;

② 问题 : 很明显 , 这个概率求不出来 ;

2 . 引入贝叶斯公式 :

① 逆向概率 ( 似然概率 | 条件概率 ) : 收到正常邮件

H_1

后 , 该邮件是

D

的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;

② 先验概率 : 收到

H_1

邮件的概率是已知的 ;

③ 后验概率 : 贝叶斯公式计算该邮件

D

是正常邮件的概率 :

P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}
V . 贝叶斯方法 步骤 3 : 比较假设的概率

1 . 假设概率 : 提出了

2

个假设 , 邮件

D

是垃圾邮件的概率是

P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}

, 邮件

D

是正常邮件的概率是

P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}

;

2 . 比较概率忽略分母 : 比较 上述两个概率 , 明显其分母都是

P(D)

, 可以不考虑分母因素 , 只比较分子 ;

3 . 比较分子 : 比较

P(D|H_0)P(H_0)

P(D|H_1)P(H_1)

两个值的大小 ;

VI . 先验概率
P(H_1)

P(H_0)

1 . 先验概率 :

P(H_1)

代表收到正常邮件的概率 ,

P(H_0)

代表收到垃圾邮件的概率 ;

2 . 获取这两个概率 : 从系统后台服务器中的邮件库中获取垃圾邮件 和 正常邮件比例即可 ;

VII . 似然概率
P(D|H_1)

P(D|H_0)

1 .

P(D|H_1)

概率 : 表示收到正常邮件时 , 该邮是

D

邮件的概率 , 即具有

D

邮件的特征 ; 需要在当前邮件库中找到具有该邮件

D

特征的邮件出现的概率 ;

2 .

P(D|H_0)

概率 : 表示收到垃圾邮件时 , 该邮是

D

邮件的概率 , 即具有

D

邮件的特征 ; 需要在当前邮件库中找到具有该邮件

D

特征的邮件出现的概率 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
    • I . 垃圾邮件过滤 需求 及 表示方法
      • II . 贝叶斯方法 步骤 1 : 提出假设
        • III . 贝叶斯方法 步骤 2 : 计算垃圾邮件假设概率
          • IV . 贝叶斯方法 步骤 2 : 计算正常邮件假设概率
            • V . 贝叶斯方法 步骤 3 : 比较假设的概率
              • VI . 先验概率
                • VII . 似然概率
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档