东北壹家一家不一样的特产店
——题记
大数据的时代,什么是最重要的?
大数据时代的数据从何而来?
我们又怎么获取这些数据?
第一个问题,so easy ! 肯定是数据啊!那第二个问题和第三个问题呢?
第二个问题的答案有很多,数据的来源有很多,比如,日常用的手机,在你购物的时候,你就会产生很多数据,比如浏览哪些商品,在哪件商品上花了多长时间;在你使用手机进行导航的时候,你的位置数据,运行商会根据你的出行信息,判断白天你在哪待的时间最久,从而判断出这是你的公司,晚上在哪过夜从而判断出哪是你的家!
好像有点跑题了,现在仅仅一部手机就可以每天就可以产生这些数据,更不说每天浏览网页,物联网设备产生的数据了!
既然每天都会产生这么多数据,又该怎么获取这些数据呢?
作为一个普通人,想要直接获取数据可以说是很难,或者基本没有办法。
那么有没有什么其他的办法可以简介获取呢?当然是有的!
是否还记得之前的很热的马蜂窝的评论充斥着大量的抄袭评论的热点?这些评论又是怎么来的呢?没错就是今天要介绍的网络爬虫。
网络爬虫是什么呢?是一种生物吗?不是,它其实就是一段程序,可以从网页上抓取数据。它就是这么简单。掌握了爬虫, 你也能从网上抓取你需要的信息,根据这些信息,加上后续的数据分析,作出自己的产品来!
那么爬虫有应该怎么入门呢?
推荐的语言是python。 首先这是一门按照天来计算掌握速度的语言,相比与java 和 c 的按照年和月来算,不知道快了多少倍。其次,是与之对应的库有很多,比如请求的requests, 解析提取的beautifulsoup, 存储的pymongo等,从抓取到解析到存储都有一系列的库供你使用,而且调用接口都很人性化。最后,人生苦短,我用python。
接下来开始介绍,在掌握语言的基础上,还需要掌握哪些东西?
网络知识: 需要知道什么是url,什么是ip
网页知识: 需要了解html的基本概念,后期再学(css,javascript)
数据库: 在掌握一些存储的技能,比如数据库读写,文件读写等
掌握了上面的这些,基本就可以说是入门了。
最后,贴一张python爬虫的思维导图吧!
领取专属 10元无门槛券
私享最新 技术干货