过去两个月,例子君每天总结和梳理小例子,关于Python基础、常用内置库、正则表达式、装饰器、生成器、迭代器、绘图工具,Python多线程等。它们很简单,也就几行代码,各位读者反映也很不错哒,养成了每天看小例子的习惯。
例子君,带你过去。
接下来,bee君出场了,勤劳的小bee君,将会每天起早或晚归继续奋战在电脑前,为大家输出更加高质量的原创文章。
人都是有惰性的,尽管勤奋程度还算可以,但是有时也偷懒。今天晚上本来想着躺在床上玩耍来着,想到实力不允许,还得继续复习基础知识,扎实输出点干货。
关注我时间久的老读者,可能点进来后被吓住了,这还是之前的那个小编吗?他的文章署名不是flody, zhenguo 或 zglg吗?今天怎么是bee君了呢。。。
哈哈哈,这几天,我翻看之前的文章,看完一篇,觉得通篇好枯燥啊,难道就不能添加点表情吗,好得也为这么干的文章添加点乐趣吧,自己都看不下去,还要祈求更多的人点开看你。所以,我先尝试做出几点改变啊:
1) 自己的原创文章署名:bee君,以后bee君就是小编了,小编就是bee君;
2) 文中会适当添加符合文章风格和主题的表情图,添点乐子,同时更好表达我想说的;
3) 了解我的读者知道,平时上班9>9*,如果当天空余时间很少,我会写一篇直击要害的技术小短文,实在没时间,我会分享一篇技术大佬的好文;如果时间较多,我会写一篇长点的包括多个知识点的文章;
4) 2020后半年,我的生活将会有一些重大改变,到时相信会有更多的课余时间,为大家推送更多高质量的技术文章;
5) 以上所有,都是出于热爱,写作已经成为生活的一部分。
那么,接下来,我会更多推送偏向Python数据分析,Python机器学习,深度学习的系列文章,主要围绕这几条线展开。所有的文章,尽量保证承前启后,是一个系列,一个系列的,杜绝东一榔头西一棒子。
注意我不是什么所谓的大神,就是喜欢总结点东西而已,所写的这些笔记也都得有个参考,主要的输入形式包括,项目中用到的重要技能包和工具包,不一定是自己很熟的,我更喜欢写一些自己不熟的,经过查查资料,产生独特理解的,这种写起来,会非常嗨;再有,我也关注了很多公众号,他们推送的文章对我有启发,让我产生独特的一些想法或理解,这种我也会写;看书,看视频,github,博客等等,只要是对自己和大家有用的技能。
我会尽量写的通俗易懂,当然这是有相当挑战的,有些知识压根就不是那么易懂,再加上个人能力有限,理解不到位,不深刻,所以就更难写的通俗易懂,但是这不妨碍,我继续前行,这是我的目标,我会不断向前,螺旋式的靠近目标。我也很感激你们的陪伴,这个舞台,我自己一个人瞎逼逼,更有可能会半途而废,但是有了你们的观看,我将会义无反顾,往前走。
好了,言归正传
1 引出概念
今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。
拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。
但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。
基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。
我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。
这里就能引出:置信度和置信区间的概念。
一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;
相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。
2 理论解释
如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为μ ,标准差为σ :
如果我们已经得出μ和σ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个σ内的置信度就是95%.
假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.
那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.
所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。
3 求95%置信度对应样本个数
已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。
表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.
所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.
因为用到Z值,在此说明下Z值的求法,作为知识扩充。
4 求95%置信度对应的Z值
允许电影评分有左右各有误差,即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。
查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。
5 求95%置信度对应的置信区间
计算置信区间:
第一步,已知样本,求样本平均值、标准差和标准误差。样本标准误差:
第二步,确定置信度(置信水平),常用的置信度是95%。
第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出:
a = 总体平均值 - Z*标准误差
b = 总体平均值 + Z*标准误差
以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。
Python与算法社区
若有用,点在看,帮助更多人
领取专属 10元无门槛券
私享最新 技术干货