废话不多说,直接进入正题
首先安装python3,把path环境配置好
用win+r运行打开cmd
输入pip install urllib命令回车等待安装urllib库
待安装完成,输入命令python回车,若出现python版本信息,则成功进入ython交互模式
C:\Users\fan>python
Python 3.6.4 |Anaconda, Inc.| (default, Jan 16 2018, 10:22:32) [MSC v.1900 64 bit (AMD64)] on win32
Type “help”, “copyright”, “credits” or “license” for more information.
输入import urllib.request,在该程序中导入urllib.request模块,以使用该模块的相关功能
>>> import urllib.request
>>>
此处timeout值为打开网站超时时间的设定,默认单位为秒,这里设置为10s
接下来爬取该网站的源代码,并将源代码以字符串的形式读取至data1中,输入以下代码实现
data1=file1.read()
此时网站源代码的字符串以byte编码方式储存在data1当中,为将爬取的源代码写入一个网页以html形式存储,我们首先在E:/1/目录创建一个5.html文件并打开该文件,目录与文件名称可自行更改,代码实现如下
fhandle1=open(‘E:/1/5.html’,’wb’)
该行代码创建了一个名为fhandle1的文件对象,代码中的’wb’使得文件以二进制写入的方式打开,以防止出现乱码
之后将之前爬取到的网站源代码数据写入html文件当中,只需对之前创建的fhandle1对象操作即可,代码实现如下
fhandle1.write(data1)
命令行会打印出一个数字,代表其成功写入文件的字符个数
最后,我们通过代码关闭该文件,完成对网站的爬取
fhandle1.close()
现在,我们通过双击该爬取的html,检验爬取的成果如何(本站因服务器带宽较小,请耐心等待网页加载)
爬取结果如下
至此大功告成,一般网站均可通过此方式进行爬取
领取专属 10元无门槛券
私享最新 技术干货