首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫爬取博客园作业

要求 第一部分: 请分析作业页面,爬取已提交作业信息,并生成已提交作业名单,保存为英文逗号分隔的csv文件。文件名为:hwlist.csv 。...以爬取羊车门问题的作业为例,以下是我解决这个问题的思路,欢迎大家向我提出问题,或者指出错误。 羊车门作业链接 我们将需要爬取的内容在页面中找到,他是下图这样的: ?   ...这时候我们爬取需要的信息的准备工作可以说是结束了,我们拿到了数据的URL,并且知道了数据类型和数据结构。...上图是hwlist.csv文件的部分结果(Excel下打开) 玩个稍复杂点的   像之前那样爬取页面的话,其实是有点问题的。...鉴于本人能力有限,这里就补充一下爬取外联CSS和图片的内容,感兴趣的可以看一看。

98210
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python爬虫实践——简单爬取我的博客

    利用上次博客讲解的三个知识点:URL 管理器、网页下载器和网页解析器来爬取一下我的博客。...我们简单以这个博客主页为入口,爬取一下以 weaponzhi.online 为 host 下所有的 URL 。...首先当然是需要一个 URL 管理器了,但和上篇文章说的有所不同,这次我们的待爬取数据结构是队列,实际上 Python 本身的 list 已经可以实现队列的一些操作了,但 list 的一些队列操作比如 pop...其次,我们看到我们会爬取到一些和博客地址无关的路径,比如图中的知乎地址,出现这种情况的原因是博客会有一些路径的跳转入口,如果我们放任爬虫去爬取这些路径,除非我们限定了爬取数量,那么爬虫将会无限制的爬取下去...我们的目的是只爬取以 weaponzhi.online 开头的博客内地址,并且记录爬取数,如果队列中的 URL 全部出队,则自动停止循环,修改后的代码如下所示 for x in node: try

    1.1K70

    Java爬取网络博客文章

    暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地址配置把人搞废了,不过总的来说还算顺利,网站地址  https://chenchangyuan.cn(空博客...所以想利用java爬取文章,再将爬取的html转化成md(目前还未实现,欢迎各位同学指导)。...1.获取个人博客所有url 查看博客地址https://www.cnblogs.com/ccylovehs/default.html?...page=1 根据你自己写的博客数量进行遍历 将博客的详情页地址存放在set集合中,详情页地址https://www.cnblogs.com/ccylovehs/p/9547690.html 2.详情页...,未完待续~~~ 我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?

    60610

    requests+pyquery爬取csdn博客信息

    突然闲来无事想要爬取csdn博客,顺便温习下相关技术点。 爬取目标 以我的csdn主页为例 ?...爬取的主要的数据已经在上用红线图标出来了,主要可分为两部分 所有博客的八个统计数据,原创的博客数、你的粉丝数、博客获得的赞、博客的评论数、博客等级、访问量、积分和排名 每篇博客的具体信息,如标题、发布时间...csdn网站虽然是一个技术性博客,但是貌似它的反爬措施做的不那么优秀,举个例子,我在分析网页结构的过程中发现它的评论数不是通过Ajax动态渲染的,而新浪新闻做到了这一点,也许是因为新闻类的实时性要求较高而技术博客类没这个必要吧...requests.get(url=myUrl,headers=headers).text get()接收两个关键字参数,第一个就是我们要爬取网页的URL,第二个就是请求头,用于模拟浏览器访问服务器,不然...其中csdn id就是想要爬取博主的id,可以去博主的主页看 源代码 2019/01/21,代码如下: 代码最新更新在我的github:https://github.com/inspurer/PythonSpider

    79920

    python+selenium+requests爬取我的博客粉丝的名称

    一、爬取目标 1.本次代码是在python2上运行通过的,python3不保证,其它python模块 - selenium 2.53.6 +firefox 44 - BeautifulSoup - requests...- 2.爬取目标网站,我的博客:[https://home.cnblogs.com/u/yoyoketang](https://home.cnblogs.com/u/yoyoketang) 爬取内容...:爬我的博客的所有粉丝的名称,并保存到txt 3.由于博客园的登录是需要人机验证的,所以是无法直接用账号密码登录,需借助selenium登录 ?...二、selenium获取cookies 1.大前提:先手工操作浏览器,登录我的博客,并记住密码 (保证关掉浏览器后,下次打开浏览器访问我的博客时候是登录状态) 2.selenium默认启动浏览器是一个空的配置...time.sleep(3) cookies = driver.get_cookies() # 获取浏览器cookies print(cookies) driver.quit() (注:要是这里脚本启动浏览器后,打开的博客页面是未登录的

    95440

    Python资源爬取-源码

    原本写微信公众号就是防止文章给轻易的爬到,但是发现并没有什么用,那些人还是该爬的爬,该盗的盗,所以在除了我的博客(blog.ernket.top)和微信公众号外任何一个地方看到这篇东西,都是未经许可的,...re sys io sys和io主要是用来转字符串的,如果爬取的结果是特殊符号或者是例如韩文这样的文字的话,爬虫是会报错的,得这么来一下让他默认输出的都是gb18030编码 import sys import...io sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 这个东西比较有意思,不单可以在这里这么用,比如爬取微信消息时也可以这么用...上一个def中,检测到了存在下一页的话,就return一个值,告诉程序存在下一页,得换个操作,其实和没有下一页的操作是一样的,就是多了询问和爬取的功能而已 ......(ehtml,"html5lib") elif confirm.upper() == ("N"): return url_list #如果为N的话,直接进行资源爬取的操作

    1.1K10
    领券