前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python分布式爬虫-必须掌握的Docker基础!

Python分布式爬虫-必须掌握的Docker基础!

作者头像
Python进击者
发布2019-07-30 12:14:33
1.1K0
发布2019-07-30 12:14:33
举报
文章被收录于专栏:JAVAandPython君

大家都知道在性能方面,Linux系统是远远优于Windows系统的,所以我们整个分布式爬虫的部署也是在Linux的子系统centos上,所以大家都要有一定的Linux基础。

因为我们使用到Docker技术,所以第一步就是要在我们的服务器上安装上Docker:

安装Docker的指令:

代码语言:javascript
复制
yum -y install docker

大家静静等待一下就可以安装成功了

安装成功之后,我给大家简单介绍一下Docker的相关基础,主要有Docker的启动、Docker镜像搜索、Docker镜像下载、Docker容器的创建、Docker容器的查看、Docker容器的命名、Docker容器的启动这几个方面。

对于我们只需要写分布式爬虫,学习这几个基础就差不多了,总体来说并不困难,也就那几句Linux命令。

Docker的启动和停止

Docker的启动:

代码语言:javascript
复制
systemctl start docker

Docker的停止:

代码语言:javascript
复制
systemctl stop docker

我们可以通过docker -v来验证我们是否启用成功

Docker的镜像搜索和下载

首先,我来给大家简单介绍镜像这个东西,镜像其实有点类似于压缩包,它也是把多个文件压缩到另一个文件当中,只不过后缀名不是我们熟知的zip,rar。很多人可能听说过windows镜像,其实就是一个意思。

我们使用Docker技术来进行虚拟化容器,我们就得向每个容器里面安装镜像,例如可以安装Ubuntu镜像,Linux镜像,centos镜像等等。镜像我们是不能去改变它本身的内容,但是我们能向容器中安装不同的镜像。

Docker的虚拟化容器技术就会给我们带来轻部署、省成本、部署迁移方便的各种优势。

简单介绍了一下镜像,接下来我们正式来学一学镜像搜索

镜像搜索:

代码语言:javascript
复制
docker search 关键字

这里说明一下这个关键字,比如我们想搜索python有关的镜像,我们就可以

代码语言:javascript
复制
docker search python

如果我们想搜索ubantu有关的镜像,我们就可以:

代码语言:javascript
复制
docker search ubantu

搜索之后,我们就会看到有很多的搜索结果出来了

我们要怎么去下载这些镜像呢?、

代码语言:javascript
复制
docker pull NAME

这个NAME就是在我们搜索之后可以看见的,例如我想下载第一个ubantu:

代码语言:javascript
复制
docker pull docker.io/ubuntu

我们整个教程也是下载的第一个Ubuntu。

下载完之后,我们如何查看我们已经下载好的镜像?

代码语言:javascript
复制
docker images

上图就可以看到我们已经下载的Ubuntu镜像,里面的TAG表示的是我们下载的版本。

Docker容器的创建和查看

我们把镜像下载好了,接下来就可以用镜像来装我们的容器

代码语言:javascript
复制
docker run -tid 3556 

这里的“3556”就是我们Ubuntu的IMAGE ID的前4位,我们直接通过前4位就可识别到是这个镜像。

创建完容器,我们怎么去查看它?

代码语言:javascript
复制
docker ps -a

Docker进入容器及不停止退出

创建完容器,我们可以进去玩一玩,怎么进呢?

代码语言:javascript
复制
docker attach container id

啥意思呢?大家可以看到上图,里面有一个container id列,我们直接选取其前四位,例如我现在要进入Ubuntu的容器:

代码语言:javascript
复制
docker attach cea2

可以看到我们成功的进入到cea2的容器中,这就相当于另外一台服务器。

当我们进入之后,我们肯定是需要退出的,但是我们这个容器中可能是有爬虫在运行的,那么我们该如何不停止这个容器运行又完美退出呢?我们可以同时按ctrl+P+Q 三个按键来进行不停止退出。

Docker容器的命名

从上图中可以看到最右边,我们容器也是有名字的,但是系统是随机生成的,我们怎样去创建一个自己设定名字的容器?

代码语言:javascript
复制
docker run -tid --name javaandpython 3556

运行之后就是上面的效果!

Docker的启动停止的容器

当我们想去启动一个停止的容器时,要怎样操作?

代码语言:javascript
复制
docker start id

这里的id同样是取前四位字母,我这里就不演示了。

根据已有的容器封装成镜像

当我们创建一个容器时,我们会在容器内搭建好整个爬虫运行的环境,但是我们需要创建很多这种容器(子节点),我们不可能每个容器都去搭建一遍,所以接下来教大家如何把我们已经搭建好的环境进行封装成镜像,然后直接使用该镜像去创建容器即可。

代码语言:javascript
复制
docker commit 471c mytest:v1

这里做个简单的解释,471c是已有容器的id,mytest是我们封装成镜像的名称,冒号后面的v1则是镜像的版本名。

显示这个就表明创建成功,我们再去查看一下镜像列表

可以看到列表中多了一个mytest,也就是我们封装的镜像。

Docker网络配置基础

之前给大家介绍过我们整个分布式的难点就是容器之间的通信,上面所写的知识可以帮助我们去创建容器,但是每个容器都是一个独立的个体,我们怎样去使其相互连通呢?

我们首先创建一个子节点容器,名字命名为h1

代码语言:javascript
复制
docker run -tid --name h1 mytest:v1

然后我们再创建一个容器,让这个容器和h1进行通信:

代码语言:javascript
复制
docker run -tid --name h2 --link h1 5953

我们该如何知道他们之间就相互通信了呢?

大家可以看图,我们首先进入h2的容器中,然后输入 cat /etc/hosts

可以看到有 172.18.0.4 是h1的ip地址,我们可以通过ping这个网址来判断是否真正通信成功

可以看到我们通信是成功的!


写了很多,大家一次性可能不能完全消化,但是大家最好收藏起来,忘记哪个命令的时候可以进行查看,如果文章里面有错误,可以私聊我,我会及时改正。

原创不易,希望大家能够点右下角的“在看”或者转发转发,非常感谢!

赞赏就不用了,大家如果想给我加个鸡腿,可以点左下角的“阅读原文”,然后可以看看里面的内容,非常感谢!

分布式爬虫是一个系列的文章,大家持续关注!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python进击者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Docker的启动和停止
  • Docker的镜像搜索和下载
  • Docker容器的创建和查看
  • Docker进入容器及不停止退出
  • Docker容器的命名
  • Docker的启动停止的容器
  • 根据已有的容器封装成镜像
  • Docker网络配置基础
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档