需求展示
* 实现一个简单的GUI(图形界面)
* 实现简单爬虫(这里将会爬取网页中的超链接和超链显示的文字)
展示部分网页
下面有豆瓣和百度的网页
上面就是豆瓣的官网了
将鼠标移到最上端的是“读书”字样的时候,就会发现鼠标变成了可以点击的样子。那就说明,“读书”在这其实是一个超链接,即点击之后就可以就可以进入到新的网页了。
我们可以下看下这个网页的源代码。
可以看到,这个超链接,就是“豆瓣图书”,然后超链接地址就是“https://book.douban.com”(也就是说,点击这个图书字样,就可以进入到这样的一个链接的网页下)
同样的,可以看下百度
同样的,在百度的最上方,那里有显示,“新闻”,还有“hao123”等字样,这些同样也是超链接。
至于地址,也是在一个标签中。
做了一个可执行的文件
用python的tkinter做了一个图形界面(封装了这个爬虫)
这次爬虫就是,上述描述 ,做了一个爬取网页中超链接的链接,和对应显示的文字。
之后,我用了pyinstaller 将这个转成了一个可以执行的exe文件。此后,只需要在输入框中输入对应网站的链接,就可以进行爬取。
文件使用方法
描述这个小软件的用法
(1)点击这个软件
(2)在出现的如下框口中的第一行输入网址(不用管是http还是https协议,我这里实现了容错的,不用担心,随便输入就好了)
比如:
输入完之后,就直接点击“查询”按钮
现在你可以回过头来看上面我介绍豆瓣的官网的信息,会发现,超链接的链接地址和对应的名字在这都有
,如果你输入的链接长度太小,就会认为是错误信息不会管的,然后,随便乱输入的一个长度比较大的链接的时候,就默认爬取的是百度的官网(hihi)
所有,容错上做的还是可以的。但是我这里是没有做正则表达式,所以可能容错上,导致了过度容错,使得,有可能对的链接都被理解为错的了(但是这个概率还是比较低的)
视频演示
用户下载
介绍下如何下载
任何用户(只要你的电脑系统不是特别特别旧的那种),就是可以直接下载,我的那个软件,直接开始使用 ,没有任何的要求。(这点做的是不是特别溜?(偷笑ing))
领取专属 10元无门槛券
私享最新 技术干货