腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
将
数据
放在
CSV
文件
中
,
从
爬虫
抓取
不同
的
网站
(
Scrapy
)
、
、
在尝试组合两种
不同
的
抓取
蜘蛛时,刮擦不相关
的
网站
,我创建了这个脚本。但是现在我似乎不能将
数据
放入一个普通
的
csv
或json
文件
中
。在我组合
爬虫
之前,我只需要
抓取
afg2 -o
数据
_set.
csv
',但现在似乎不起作用。 获取
csv
文件
中
的
数据
<em
浏览 44
提问于2020-07-23
得票数 0
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我想做一个
网站
,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
如何
将
刮过
的
项目导出为
Scrapy
中
的
字典列表
、
、
我做了一个
抓取
代码,有4个
爬虫
从
4个
不同
的
电子商务
网站
抓取
。对于每个
爬虫
,我想从每个
网站
输出价格最低
的
5产品,并将它们导出到一个
CSV
文件
中
。现在,我
的
主要代码如下所示:process.crawl(Crawler1)process.crawl
浏览 9
提问于2021-12-09
得票数 0
回答已采纳
1
回答
Scrapy
Crawler:避免重复
抓取
URL
、
我创建了一个
爬虫
使用
Scrapy
.The
爬虫
正在
抓取
网址
的
网站
。使用
的
技术:Python
Scrapy
问题:我有重复
的
URL。我需要
的
输出是:我希望
爬虫
抓取
网站
的
网址,但不爬行重复网址
的
。示例代码:我已经添加到我
的
settings.py
文件
的
代码。DUPEFILTER_CLA
浏览 32
提问于2021-06-29
得票数 0
3
回答
Scrapy
pause/resume是如何工作
的
?
有人能给我解释一下
Scrapy
中
的
暂停/恢复功能是如何工作
的
吗?没有提供太多细节。我在我
的
scrapy
_cache
文件
夹中看到一个名为requests.queue
的
文件
夹。但是,这始终是空
的
。 看起来requests.seen
文件
正在(使用SHA1散列)保存发出
的
请求,这很棒。但是,下次运行爬行
浏览 0
提问于2015-03-04
得票数 8
1
回答
如何提高
抓取
抓取
的
速度?
、
我正在使用
Scrapy
抓取
网站
并将
数据
提取到json
文件
中
,但我发现对于某些
网站
,
爬虫
需要很长时间才能
抓取
整个
网站
。 我
的
问题是:如何最大限度地减少爬行所需
的
时间?
浏览 3
提问于2013-10-01
得票数 4
1
回答
使用来自同一URL
的
多个POST
数据
进行
抓取
、
、
、
、
我已经创建了一个
爬虫
,它收集具有匹配电话号码
的
公司名称列表。然后将其保存为
CSV
文件
。 然后我想从另一个
网站
抓取
数据
,使用
CSV
文件
中
的
电话号码作为发布
数据
。我希望它循环通过相同
的
起始URL,但只是
抓取
每个电话号码产生
的
数据
,直到
CSV
文件
中
没有更多
浏览 1
提问于2013-07-17
得票数 3
回答已采纳
1
回答
如何使用
scrapy
登录网页
、
、
、
我有一个网络
抓取
程序,需要登录到一个
网站
,以
抓取
某些
数据
。现在,我只是尝试
抓取
帐户信息页面https://www.starcitygames.com/myaccount/,以便在
抓取
我实际需要
的
数据
之前让它正常工作。有几个Urls我需要
抓取
,但只有一个需要登录。但是我
抓取
的
所有URL都在同一个
网站
上。不过,目前它似乎没有做任何事情。我尝试登录
浏览 18
提问于2019-06-14
得票数 0
回答已采纳
1
回答
如何在检测响应状态
中
的
代码500时自动增加
scrapy
的
DOWNLOAD_DELAY
、
、
、
我
将
编写数百个
爬虫
来
抓取
不同
的
静态网页,所以我选择
Scrapy
来帮助我完成我
的
工作。 在工作过程
中
,我发现大多数
网站
都很简单,不会防蜘蛛。但是我发现很难在
scrapy
.setting.py
文件
中
设置一个套装DOWNLOAD_DELAY。有太多
的
爬行器要编码,为每个爬行器找到合适
的
DOWNLOAD_DELAY会耗尽我
的
时间。我想知
浏览 2
提问于2019-01-17
得票数 1
1
回答
Scrapy
:如何检查之前
抓取
的
页面是否已被删除?
、
、
、
、
我做了一个简单
的
抓取
我所在城市房价广告
的
Scrapy
爬虫
。 它收集以下
数据
:广告标题、价格和URL。然后输出
CSV
文件
。每周我运行
爬虫
程序,我想让它将最新
的
CSV
文件
与之前
的
文件
进行比较,以检查是否有广告被删除。如果有,我希望在
CSV
文件
输出
的
最后一列
中
包含今天
的</
浏览 9
提问于2017-02-22
得票数 2
回答已采纳
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在
文件
中
、
、
我正在
抓取
一个包含URL列表
的
大
文件
。显然,我不能连续地
抓取
所有的URL。我当前
的
解决方案
从
文件
中
读取URL。一旦它从该页面
抓取
和下载文档,我就会写入一个新
文件
,如下所示: https://url_i_completed_crawling E:/location_I_stored_crawled_files,程序
从
URL
的
原始文本
文件<
浏览 6
提问于2019-10-11
得票数 0
1
回答
如何在Spyder或VScode中使用
Scrapy
、
我想在Spyder中使用
Scrapy
,而不是通过终端/shell使用它。我是一个windows用户,
Scrapy
版本1.8.0,pyhton 3.7.3,我正面临着BeautifulSoup
的
问题。例如,我试图从一个
网站
获取一个产品
的
价格,问题是它并不总是得到
数据
,但
Scrapy
在这里通过使用CSS选择器工作得很好。所以我想将
Scrapy
与Spyder或Vscode一起使用,因为我还有其他依赖于
Scrapy
输出
的</
浏览 69
提问于2019-12-14
得票数 0
回答已采纳
4
回答
从
urls列表中下载<very large> number of pages
的
最佳方式是什么?
、
、
、
、
我有一个>100,000
的
urls (
不同
的
域名)在一个列表
中
,我想下载并保存在
数据
库
中
,以便进一步处理和修补。另外,你也可以自由地提出你脑海中出现
的
其他很棒
的
方法。
浏览 2
提问于2013-06-06
得票数 5
回答已采纳
1
回答
在
数据
库
中
存储结果时,如何避免重复存储
、
、
我只是
从
scrapy
开始,并试图开发一个项目,我
从
网站
上
抓取
‘新闻链接’。例如,有一个
网站
iltalehti.fi,我想要
抓取
他们
的
新闻,比方说每5分钟。由于每次爬行都会返回重复项,如何避免
将
这些重复项存储在
数据
库
中
?因此,最终结果将是一个只包含
不同
条目的
数据
库,而不是两次包含相同新闻链接
的
数据
库(如果我每隔5分钟运行一次<em
浏览 20
提问于2020-04-07
得票数 0
1
回答
如何使用
scrapy
抓取
内层url?
、
我在看一些在线视频
的
时候创建了一个
抓取
蜘蛛。它从
网站
上
抓取
个人资料url。我想扩展这一点,以报废
数据
,如地址,姓名,电话,
网站
网址
从
每个配置
文件
网址
抓取
。 我在考虑创建分离
的
刮板。一个用于
抓取
配置
文件
url。以及
从
抓取
的
第一url
中
抓取
数据
的
第二个url。
浏览 22
提问于2019-04-14
得票数 1
回答已采纳
2
回答
与多个小脚本相比,使用一个大脚本更好吗?
、
、
使用python2.7和selenium,我目前正在
抓取
这些
网站
的
数据
,如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。然后,我
将
脚本
的
结果导出到
CSV
文件
中
,每个列都包含提取
的
数据
类型(参见下面)。我计划通过编写新
的
爬虫
来提取更多类型
的
数据
。我的当前脚
浏览 2
提问于2017-03-10
得票数 1
回答已采纳
0
回答
Scrapy
:一个项目中
的
多个
爬虫
、
我已经写了一个网络
爬虫
与代理使用
scrapy
。因为我总是需要一个随机
的
代理池来避免被禁止,我决定编写另一个
爬虫
来
抓取
一个提供免费IP
的
网站
。目前,我在两个独立
的
scrapy
项目中使用了这两个爬行器,它们具有
不同
的
设置、管道和中间件。每次开始
爬虫
过程时,我都需要首先
抓取
IP,将它们导出到一个
文件
中
,然后转到另一个
爬虫</e
浏览 7
提问于2016-07-07
得票数 0
2
回答
使用cronjob运行杂乱无章但不符合预期
的
结果
、
、
我正在使用cron作业来安排我
的
抓取
程序每隔12小时运行一次。 我已经创建了一个
爬虫
,它
抓取
数据
并使用FEED_FORMAT将其存储在
csv
文件
中
。 这是我
的
shell
文件
的
内容 #!bin/bash PATH=$PATH:/usr/local/bin/
scrapy</e
浏览 28
提问于2020-03-26
得票数 0
1
回答
python刮伤管道突然失效
、
、
这是非常奇怪
的
,我写了刮刮
的
代码与它
的
管道和爬行了大量
的
数据
,它总是工作良好。今天,当我重新运行相同
的
代码时,它突然就不能工作了。/logs/log.txt ScrapeNews/spiders/article_base_url_spider.py运行我
的
蜘蛛代码。它可以
抓取
start_urls
中
的
所有urls。这个
文件
应该用来指示设置
文件
在
浏览 2
提问于2017-04-24
得票数 0
0
回答
如何在同一位置使用
Scrapy
请求和获取响应?
、
、
我正在编写
抓取
爬虫
从
电子商务
网站
抓取
数据
。该
网站
有颜色
的
变化,每个变化有自己
的
价格,大小和库存
的
大小。要获得变种
的
价格、尺寸和库存,需要访问变种
的
链接(颜色)。并且所有
数据
都需要在一条记录
中
。我已经使用requests.get()编写了
爬虫
程序,并在
scrapy
.selector.Selector()和解析<e
浏览 2
提问于2018-07-13
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Go 开发者的涨薪通道:自主开发 PaaS 平台核心功能-完整分享
最佳免费网络爬虫工具(5)
用 Python 分析B站的变化
Scrapy递归抓取简书用户信息
python爬虫系列开发scrapy掌握(一)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券