自动化收取你的163邮箱信息
【今日知图】
行数移动
0.说在前面1.模拟登陆2.收件箱信息3.结果展示4.作者的话0.说在前面
【需求】
由于需求,我最近自己搞了两个大项目,哈哈,开个玩笑,比较小~~
需求一:对知乎所有评论进行可视化及知识图谱建立,利用机器学习基神经网络训练知识图谱,进一步的增强用户的联系,扩充实体关联,这个就比较难了,还在进行时,哈哈~~
需求二:就是大家看到的标题,163邮箱问题,我想下载我邮箱里面的所有数据,比如收件箱的信息及附件等。今天分享163邮箱模拟登录及收件箱信息爬取~~
【吐槽】
这两天特别累,事情特别多~~还是坚持给各位发文章,保证每日一篇
不管怎么样,还是坚持下去!
【技术点】
采用selenium模拟登录,利用xpath提取数据~~
下面我们一起来看163问题~~
1.模拟登陆
分析
如下图所示,我们先来定位一下,登录的基本信息~
当我们第一次打开这个页面的时候,iframe是刷新以后才可以登录,所以必须得等它动态加载完毕,才可以~
封装
初始化,我们定义了三个list分别存储,邮件标题,收件箱的信息来自于某位用户,以及邮件时间。
模拟登陆
如下图定位:
2.收件箱信息
数据抽取
这里将数据进行抽取,提取出标题,邮件来自,时间,如下图:
单页面处理
首先进行登录,登陆后,让页面刷新完成后,所以这里设置了10秒后爬起,定位到收件箱,进行自动化点击,调用上述方法进行爬取!
同时可以在当前页获取总页面数!如下图所示,通过取出最后一个数字便为总页面数!
多页面数
还是上述那个页面,我们可以定位到下一页的标签,进行自动化点击,抓取下一页数据即可!
3.结果展示
4.作者的话
最后,您如果觉得本公众号对您有帮助,欢迎您多多支持,转发,谢谢!
更多内容,请关注本公众号爬虫系列!
我今天才知道,我之所以漂泊就是在向你靠近。
--《廊桥遗梦》
领取专属 10元无门槛券
私享最新 技术干货