腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
抓取
爬行
器
只
返回
列表
中
的
最后
一项
、
、
我正在构建一个
抓取
器
来
抓取
一个页面,并从一个div
中
返回
多个项目(h3 &p标签)。由于某些原因,当被调用时,
抓取
器
将打印所有“name”字段,但
只
保存页面上
最后
一项
的
信息。下面是我
的
代码: import scrapy name = 'food' allowed_dom
浏览 32
提问于2019-03-24
得票数 0
回答已采纳
3
回答
避免重复
的
URL
爬行
我编写了一个简单
的
爬虫。在settings.py文件
中
,通过参考scrapy文档,我使用了如果我停止crawler并再次重新启动crawler,它将再次
抓取
重复
的
urls。
浏览 0
提问于2013-07-16
得票数 15
回答已采纳
2
回答
Python Scrapy -如何同时从2个不同
的
网站
抓取
?
、
我需要从Excel
中
给出
的
域
列表
中
抓取
数据;问题是我需要从原始网站(让我们举个例子:)和从similartech ()
抓取
数据。我希望它们同时被
抓取
,这样我就可以接收它们,并在
最后
格式化它们一次,之后我将直接转到下一个域。 理论上,我应该在scrapy
中
以异步方式使用2个
爬行
器
?
浏览 2
提问于2020-02-10
得票数 1
1
回答
我
的
网络
爬行
器
只
返回
最后
一句引号
、
、
、
我写了这个粗糙
的
网页
抓取
器
来
抓取
this website上前10页
的
所有引文,在运行代码后,我发现只有一些页面的
最后
一个引文会
返回
给我。我需要建议,我如何才能让
抓取
蜘蛛
返回
所有页面上
的
所有引文。以下是我
的
代码 import scrapy start_urls=['https:/
浏览 9
提问于2020-10-22
得票数 0
回答已采纳
1
回答
Scrapy,python:无法使用在firebug中看到
的
xpath提取数据
、
、
我对网络
抓取
、刮擦和巨蟒相当陌生。我正试图从这个中
抓取
数据。我想提取页面页脚
中
给出
的
电子邮件id : info@bikramyogasg.com,并尝试使用两个x路径来提取刮伤蜘蛛
中
的
电子邮件id: 绝对: /html/body/div4/div/div/div
浏览 2
提问于2015-07-06
得票数 0
回答已采纳
2
回答
Scrapy:在两个
爬行
器
之间传递数据
、
、
我需要创建一个蜘蛛,从网站
抓取
一些数据。数据
的
一部分是外部URL。向第二个
爬行
器
传达start_url
列表
的
推荐方式是什么?我
的
想法是为这些项生成一个js
浏览 1
提问于2012-07-19
得票数 1
回答已采纳
2
回答
Nutch渐进式
爬行
我是新来
的
纳奇,我正在做
的
POC与纳奇1.9。我只是想爬我自己
的
网站来建立一个搜索。我发现我做
的
第一次
爬行
只
爬了一页。第二个
爬行
40页,第三个300页。增量减少,它总共
爬行
约400页。有谁知道为什么它不只是在网站
的
第一次运行
的
全部
抓取
?我使用了nutch教程(),并按照3.5节使用脚本运行。我也发现多次运行,它不会
抓取
整个网站无论如何- GSA为同一网站带回900多页,nutch带
浏览 4
提问于2014-11-17
得票数 0
回答已采纳
1
回答
循环
只
返回
列表
中
的
最后
一项
。
、
、
、
当我运行这段代码时,我只得到从
列表
中下载
的
最后
一个文件。大约有400多个链接要下载。我是不是遗漏了什么?
浏览 0
提问于2017-10-26
得票数 0
回答已采纳
1
回答
根据通过python脚本传递给
爬行
器
的
URL
列表
运行scrapy spider
、
、
、
我从数据库
中
获得了1000个URL,以及2个字段,如name和id[{'name':'name1','id':'id1,'link':'myurl1'},
浏览 0
提问于2015-11-09
得票数 0
1
回答
Scrapy如何保存爬网状态?
、
我能够保存我
的
抓取
状态,并且Scrapy成功地从我切断
的
地方继续。每次重新启动
爬行
器
时,我都保持start_urls不变,即每次重新启动
爬行
器
时,提供
的
start_urls
的
顺序和
列表
都是恒定
的
。但我需要对我
的
start_urls做一个随机
的
洗牌,因为我有来自不同域
的
URL,以及来自相同域
的
URL,但由于它们是有序
的</
浏览 0
提问于2019-07-04
得票数 0
1
回答
如何将Scrapy管道
中
的
批量更新写入mongodb
、
、
我有一个基于Scrapy
的
连续运行
的
爬虫。这些请求可能会时不时地失败,我需要记录成功和失败。我目前正在制作一个关于成功
的
项目和一个关于失败
的
特殊ErrorItem。 write_to_mongo(success_query, {"$set":
浏览 0
提问于2020-05-12
得票数 0
2
回答
在Python
中
设计多进程
爬行
器
、
、
我正在用Python开发一个多进程
爬行
器
。它应该开始
抓取
一个页面的链接,并从那里开始工作。具体地说,顶级页面包含类别
列表
、这些类别
中
的
第二级页面事件以及事件
中
的
最终第三级页面参与者。我有点困惑于如何最好地设计这样一个爬虫,尤其是如何知道它何时完成
爬行
(它应该继续
爬行
,直到它发现并检索到所有相关
的
页面)。理想情况下,第一次
抓取
应该是同步
的
,其他一切都是异步
的
浏览 1
提问于2009-11-24
得票数 3
回答已采纳
1
回答
Scrapy Spider分页提前结束
、
我正在为一个项目做一个
抓取
蜘蛛。我
抓取
的
大多数网站都有一个带有
列表
页面的搜索页面的一般格式。我编写了一个
爬行
器
来从搜索页面和
列表
页面
中
抓取
每个
列表
的
数据。然而,我遇到
的
问题是,在
抓取
时,我
的
爬行
器
将
抓取
所有的搜索页并排队等待
抓取
的
列表
页面,
浏览 36
提问于2021-01-12
得票数 2
1
回答
在scrapy下载图像时获取钩子失败
、
、
我
的
爬虫运行得很好,数据库里也有东西2012-12-20 09:25:23+0800 [working] DEBUG: Crawled (200) <GET http://www.example.com: [u'5710'], 'title': [u'test1']} 我已经在设置和IMage商店
中
浏览 1
提问于2012-12-19
得票数 0
回答已采纳
1
回答
从Django视图启动Scrapy
、
、
、
我对Scrapy
的
经验是有限
的
,每次我使用它,它总是通过终端
的
命令。我如何从django模板
中
获取表单数据(一个要被刮掉
的
url )来与scrapy通信,从而开始进行
抓取
?到目前为止,我
只
考虑从django
的
视图中获取表单
的
返回
数据,然后尝试将表单数据
的
url添加到
爬行
器
的
spider.py
中
。从那里开始,我真的不知道如何触发实
浏览 1
提问于2014-11-14
得票数 11
回答已采纳
3
回答
用不同
的
刮板
抓取
跟随链接
、
我正在用Scrapy
抓取
一个网页。我写了我
的
爬行
器
,它工作得很好,它
抓取
一个页面上
的
项目
列表
(让我们称它为主页)。在主页
中
,我考虑
的
每个项目都有一个链接,该链接指向详细项目页面(让我们这样叫它),在那里可以找到关于每个项目的详细信息。 现在我也想
抓取
细节页面,但蜘蛛会不同,在不同
的
地方会有不同
的
信息。是否可以告诉scrapy在特定位置查找链接,然后
抓取
那些链接到我
浏览 2
提问于2013-09-16
得票数 2
4
回答
Googlebot要花多长时间才能
抓取
一个页面?
、
、
Googlebot每天
爬行
一定数量
的
页面,这取决于站点
的
大小。但是,对于一个特定
的
页面需要多长时间。换句话说,在扫描到下一页之前,它在当前扫描页面上花费了多少秒或分钟。这有固定
的
时间吗?
浏览 0
提问于2022-07-25
得票数 2
2
回答
抓取
爬行
器
没有收集第一页数据,并且每页上
的
第
一项
可能也不正确
、
这个
爬行
器
从Funny subreddit页面上拉出标题。我认为问题可能出在允许
的
url上,因为/funny主页与此不匹配。如果我在允许
的
列表
中
添加“/r/ from /”,它会变得疯狂,
爬行
太多。另外,不确定如何处理每一页
的
第
一项
错误(有时可能是前一页
的
最后
一项
。
浏览 0
提问于2017-05-28
得票数 0
1
回答
删除带有scrapy
的
文件时出现winError 32权限错误
、
、
我有一把破烂
的
蟒蛇刮刀。The process cannot access the file because it is being used by another process: 'file2.json' if os.path.exists(filename):我尝试了一些方法来解决这个问题,但没有帮助,第一个是在删除之前
的
代码os.chmod(filename, 0o777) 第二个是在删除之
浏览 12
提问于2018-02-26
得票数 0
3
回答
在HBase中使用PHP和Mapreduce添加/查看/删除数据?
、
、
、
嗨,朋友们1)我可以使用Map reduce从网络获取数据吗 2)是否可以将拉取
的
数据保存到HBase?3)我可以用PHP写一个从HBase
中
获取数据
的
应用吗?如果可以,你能给我一个代码片段吗?我如何使用PHP从HBase
中
添加/查看/删除数据?
浏览 1
提问于2010-11-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎如何爬行和抓取?
不慌,带你透彻了解爬虫类型
万人网络讲解:“沈阳SEO”浅析搜索引擎蜘蛛的工作方式
常见的搜索引擎蜘蛛有哪些?
站长,请不要小瞧服务器对SEO优化效果的影响
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券