会。先定义“骗人”:给人提供错误的结果或给人带来误导。数据来源、分析过程、人的因素都可能带来骗人的效果,比如上过一些基本的统计课的人可能第一节课上就会听到一句话,垃圾进垃圾出(garbage in,garbage out),通常来说形容的是数据来源质量不高,那么从数据中也很难得到有效的信号。从垃圾堆里找信号,很有可能就会把人带进坑里。这里主要讲讲分析过程中可能遇到的情况,导致有意或者无意带来了“骗”人的后果,权当抛砖引玉。1.数据可视化骗人俗话说一图值千言,数据可视化在数据分析中占有举足轻重的地位,而数据可视化也是“骗人”的重灾区。
1.1更改的坐标轴有时候是有意的(比如说需要强调自己的某一个看法),有时候是无意的(比如说Excel会自动调整)。球员2013年跟2012年投球速度差得也太多了,掉了一半多不止,这一年发生了什么惊天动地的事情。再仔细看,无非是从77.5降到了75.3,差别小得很。当然做这张图的人还是有点节操的,虽然纵坐标轴弄得很奇葩,但至少把数据标出来了,字体也不算太小。看历年数据趋势的时候,很多时候是既可以看每年的单独分布,也可以看累积分布的,比如说销量、利润等等。有时候碰上今年的销量或者利润不如去年,如果看逐年销量或者利润,则很容易看到下降的趋势。若改成累积分布图,下降的趋势就很容易被抹去了。比如说iPhone 2016年预计销量要比2015年低。
领取专属 10元无门槛券
私享最新 技术干货