这是我们分布式爬虫系列文章的第三篇文章了,这是最后一篇打基础的文章,在下一篇文章中,我们就会通过一个实战,来彻彻底底教会大家分布式爬虫!
今天,我们主要讲的是Redis数据库,相信大家肯定听说过这个数据库。我们主要分为Redis的安装与启动以及Redis的使用基础两个方面来给大家讲解。
Redis的安装
我们首先进入到容器当中,具体可以看图:
进入之后,我们输入
apt-get -y install redis-server
稍作等待,即可安装成功。
如果这个过程中出现问题,可以升级一下你的apt-get
apt-get update
Redis的启动和连接
我们安装完成之后,就需要启动Redis数据库服务器
/etc/init.d/redis-server restart
其实,Redis是分为服务器和客户端两端的,我们上面启动是服务器,就意味着Redis服务打开了,此时我们需要打开客户端去连接服务器。
不带参数的连接服务器
redis-cli
带参数的连接服务器
redis-cli -h 主机地址 -p 端口
如果大家在这里遇到了下图的报错:
提示说Connection refused ,这里我教大家来解决
首先进入/etc/redis 然后vi redis.conf,来编辑这个文件
找到这句话,上图是我修改后的,后面的172.18.0.4是我的容器ip,如何查看可以去上一篇docker的文章中找。
Redis使用基础
Redis与其他的数据库不同之处在于Redis中的存储格式是键值对。
1. 例如我们想设置一个数据,我们可以使用set来实现,取出数据使用get
2. 获取键值的长度 strlen
3. 批量设置键值对,取出键值对
在Redis中还有一种存储方式,被称为哈希存储法。它比键值对多了一个“域”。 键 - 域 - 值(key - field - value)
那么我们怎么设置这种数据呢?
那么又如何批量设置键- 域 -值?
其实用于分布式爬虫中的Redis基础就这么多,当然Redis的用法还有很多,如果大家想深入了解,可以去百度搜索一下。
那么我们今天学的这些东西到底有什么用呢?我来给大家简单介绍一下,当我们爬取某个网页时,我们可以使用以下命令:
hset url 123.com 1
此时我们将这个url的值设置为1,就代表我们已经爬取过这个网页了,下次爬取时就不会重复爬取这个网页。如果我们没有爬取这个网页,那么它的值就为null,我们就对其爬取。
整体的思路还是非常简单的,好了,今天我们就写到这,下一篇文章我们会用一个分布式爬虫实战来教大家完完整整的写一个分布式爬虫,记得持续关注!!!
原创不易,希望大家点赞转发!