在前两篇里,我们谈论了对大数据数据分享以及大数据普及上问题的思考,那么现在我们对大数据的框架进行个人的看法
首先我们在上次中,了解到了,想要完成大数据的功能,我们就至少要在数据爬虫,数据挖掘,数据分析,机器学习上进行工作。
那么我们就可以依照这些信息,造成相对应的操作流程
得到数据 提炼数据 数据分类 数据转发为知识
得到数据:
我们都知道,得到数据无非两种方式
第一种,对方工作之后,留下了工作的信息包装产品,那么我们就得到那些个信息报,将它取来,我们就可以进行下面的操作
在这里面,我们也可以分成两种情况,被动爬取,这里会有很多人发问,读取还有被动的吗??被动,就是说明,对方已经把数据摆在你眼前了,你只要,对着他的数据正常的读取文件,明白点说,这个数据就在你的主机上或者就在你的局域网上正常访问的服务器上。你可以直接,或者在某些简单的处理之后,你就可以进行读取这个信息,那么这个就是被动爬取,那么主动爬取,那就是你必须经过一些方法,主动的把数据搬移到某一个地方,就是将不同地方的文件,或就是要将自己系统内部不同主机上的文件,进行不断的读取,然后整理成一个数据包之后,这就是主动爬取
说了这么一大堆,其实主动与被动的最主要区别就是你有没有对他人的数据进行爬虫操作
但是这样就是有一个缺点,就是整体上的爬取是被动的,必须知道,你这个文件个位置,(可能是url地址),或许对方有进行保存数据(对方没有进行数据的存储,或许是一个非常糟糕的设计,读取之后,对后面的工作难度加大),那么这个方法
第二种就是无需要了解他人的是否有没有这样的数据,不需要知道对方到底有没有将他公布,只要知道,对方的工作位置(服务器)【基本就是第一部的时候,那个公式的公布产品】,然后呢,或者主动的收取对方的信息(发送大量的请求,来获取信息)或者被动的获取大量的信息(监听用户传入的信息,然后获取响应)这样,面对不同的服务器,我们就需要建立不一样的额监听机器人,这样,我们就可以或许来自不同途径的文件。
说到这里,我们不难知道,这里最大的难点在于哪里,静态爬取对方的信息,在现如今丰富的爬虫包装内,我们都拥有了大量优秀的API,来支持我们对不同的已知数据进行爬取。所以,最大的问题就是如何主动的让爬虫依附在对面的客户端(当然了,处于人道主义,我们当然是要让对面了解到,这个爬虫的存在。同时也需要加大对数据的监察力度,防止恶意爬虫的盗取信息),其次,爬附之后,我们又需要保证它拥有强有力的生命力,来不让程序崩溃,并且,也会该服务端的数据进行挖取,然后,将数据按照某种格式写到自己的那边。
PS。既然如此,那我们就可以创立一个爬虫管理者类,来管理爬虫,
所以问题来了,分析完之后,我们先面对第一个问题,
如何将爬虫依附到目标
2.如何让爬虫听取信息
3.如何让爬虫读取信息
4.如何让爬虫读取到的信息,以一种既定的格式进行保存进我方的地址
目前,我只想到了一个操作流程
先是 bind()绑定到一个地址,然后,开启线程,异步的进行监听listen(),一旦有人开始进行操作,立马进行读取信息,然后,将信息以一种特殊的信息返回getMessage() ,然后获取信息之后,在返回到主机
可以明显的看的爬虫基本结构(汗,我也不知道英文对不对)
class Crawer:
def bind(address)
def listen();
def getMessage();
def send();
具体想法,不知道能不能在下期之前想出来...
未完待续...
领取专属 10元无门槛券
私享最新 技术干货