首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白

过去两个月,例子君每天总结和梳理小例子,关于Python基础、常用内置库、正则表达式、装饰器、生成器、迭代器、绘图工具,Python多线程等。它们很简单,也就几行代码,各位读者反映也很不错哒,养成了每天看小例子的习惯。

例子君,带你过去。

接下来,bee君出场了,勤劳的小bee君,将会每天起早或晚归继续奋战在电脑前,为大家输出更加高质量的原创文章。

人都是有惰性的,尽管勤奋程度还算可以,但是有时也偷懒。今天晚上本来想着躺在床上玩耍来着,想到实力不允许,还得继续复习基础知识,扎实输出点干货。

关注我时间久的老读者,可能点进来后被吓住了,这还是之前的那个小编吗?他的文章署名不是flody, zhenguo 或 zglg吗?今天怎么是bee君了呢。。。

哈哈哈,这几天,我翻看之前的文章,看完一篇,觉得通篇好枯燥啊,难道就不能添加点表情吗,好得也为这么干的文章添加点乐趣吧,自己都看不下去,还要祈求更多的人点开看你。所以,我先尝试做出几点改变啊:

1) 自己的原创文章署名:bee君,以后bee君就是小编了,小编就是bee君;

2) 文中会适当添加符合文章风格和主题的表情图,添点乐子,同时更好表达我想说的;

3) 了解我的读者知道,平时上班9>9*,如果当天空余时间很少,我会写一篇直击要害的技术小短文,实在没时间,我会分享一篇技术大佬的好文;如果时间较多,我会写一篇长点的包括多个知识点的文章;

4) 2020后半年,我的生活将会有一些重大改变,到时相信会有更多的课余时间,为大家推送更多高质量的技术文章;

5) 以上所有,都是出于热爱,写作已经成为生活的一部分。

那么,接下来,我会更多推送偏向Python数据分析,Python机器学习,深度学习的系列文章,主要围绕这几条线展开。所有的文章,尽量保证承前启后,是一个系列,一个系列的,杜绝东一榔头西一棒子。

注意我不是什么所谓的大神,就是喜欢总结点东西而已,所写的这些笔记也都得有个参考,主要的输入形式包括,项目中用到的重要技能包和工具包,不一定是自己很熟的,我更喜欢写一些自己不熟的,经过查查资料,产生独特理解的,这种写起来,会非常嗨;再有,我也关注了很多公众号,他们推送的文章对我有启发,让我产生独特的一些想法或理解,这种我也会写;看书,看视频,github,博客等等,只要是对自己和大家有用的技能。

我会尽量写的通俗易懂,当然这是有相当挑战的,有些知识压根就不是那么易懂,再加上个人能力有限,理解不到位,不深刻,所以就更难写的通俗易懂,但是这不妨碍,我继续前行,这是我的目标,我会不断向前,螺旋式的靠近目标。我也很感激你们的陪伴,这个舞台,我自己一个人瞎逼逼,更有可能会半途而废,但是有了你们的观看,我将会义无反顾,往前走。

好了,言归正传

1 引出概念

今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。

拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。

但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。

基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。

我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。

这里就能引出:置信度和置信区间的概念。

一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;

相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。

2 理论解释

如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为μ ,标准差为σ :

如果我们已经得出μ和σ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个σ内的置信度就是95%.

假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.

那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.

所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。

3 求95%置信度对应样本个数

已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。

表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.

所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.

因为用到Z值,在此说明下Z值的求法,作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差,即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。

查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间:

第一步,已知样本,求样本平均值、标准差和标准误差。样本标准误差:

第二步,确定置信度(置信水平),常用的置信度是95%。

第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出:

a = 总体平均值 - Z*标准误差

b = 总体平均值 + Z*标准误差

以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。

Python与算法社区

若有用,点在看,帮助更多人

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200118A0QLXA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券