图片来源:网络
看到上面的图片,你的第一反应是什么?
高速公路、规则、规律,所以,现在可以知道数据分析在现代社会中占据重要地位,掌握数据其实就是掌握规律。当我们了解市场数据,对它进行分析,我们就可以得到市场的规律。当你掌握产品自身的数据,对它进行分析,就可用了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的 “数据结构 + 算法” ,也是企业争夺人才的高地。
那数据结构都有什么?
其实我们从小咖的数据分析项目课可知是下图形式:
1. 数据收集方法:
1.网络爬虫
2.公开数据集
3.其它途径收集的数据
2. 数据预处理方法:
1.归一化
2.二值化 :类似于就是把一个数据或者说是一堆数据就分成两类:高的和低得;
3.维度变换 :我手里有一个二维的数据,把他转换成一维数据或者三维数据;
4.去重 :有些数据重复的太多;
5.无效数据过滤 :有些数据缺漏或者不足;
3. 数据处理方法:
1.数据排序 :类似把这堆数据从大到小排序;
2.数据查找 :我手里有一堆数据,然后你给我一个需求然后按这个需求去查找;
3.数据统计分析
4. 数据展示方法
1.列表
2.图表
3.动态交互图形
以上,是我从小咖课程中了解到的。
说了这门么多,我们其实可以直接看下面的总结:
数据采集:它是我们的原材料,也是最“接地气“的部分,因为任何数据分析都要有数据源;
数据挖掘:它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。
数据可视化:它可以说是数据领域中万金油的技能,可以让我们直观地了解到
数据采集:
在数据采集部分中,你通常会和数据源打交道,然后使用工具进行采集。
在本系列推文中,我会分享给你都有哪些常用的数据源,以及如何获取它们。另外在工具使用中,你也将掌握“八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源。当然我也会教你如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“全职高手”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。
数据挖掘
第二个部分是数据挖掘
掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的,置信度这个词你先记住就可以了,后面我们来学习它具体代表什么。
数据可视化
这是一个非常重要的步骤,也是我们特别感兴趣的一个步骤。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
如何进行数据可视化呢?
有两种方法:
第一种就是使用Python。在Python对数据进行清洗、挖掘的过程中,我们可以使用Matplotlib、Seaborn等第三方库进行呈现。
第二种就是使用第三方工具。微图、DataV、Data GIF Maker 等第三方工具
数据采集和数据可视化的原理简单,容易理解。这两个部分注重的是工具的掌握,在我边学边分享的过程中,让我掉头发的就是算法。
下节课,将分享:数据分析的修炼指南
领取专属 10元无门槛券
私享最新 技术干货