腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Scrapy
可以
处理
多少个
URL
?
、
、
、
我有一个包含许多
URL
的文件。我愿意从这些网址中提取链接,然后提取不同页面的标题和metas。for link in le.extract_links(response): yield
scrapy
.Request(l
浏览 4
提问于2017-02-10
得票数 0
回答已采纳
1
回答
刮擦:不重复地连续地刮某些链接图案
、
listed": false, "end": "2012-08-06", "
url
浏览 2
提问于2020-01-02
得票数 0
回答已采纳
1
回答
抓取-不能列出更深层次的链接
、
、
、
、
为此,我
使用
了
Scrapy
2.3.0。问题是结果('item_scraped_count')是63个链接,但我知道还有更多。from
scrapy
.spiders import CrawlSpiderfrom
scrapy
.linkextractorsimport LinkExtractor from <
浏览 3
提问于2020-08-19
得票数 1
回答已采纳
1
回答
在
scrapy
.Request中添加dont_filter=True参数是如何使我的解析方法工作的?
、
、
(self.start_urls[0],callback=self.parse2) print(response.
url
) 当您运行该程序时,parse2方法不起作用,并且它不打印response.
url
。,他们从未在
scrapy
.Request方法中
使用
dont_filter = True参数,并且他们的第二个解析函数仍然有效。# this would log http://www.example.com/so
浏览 1
提问于2016-08-15
得票数 8
回答已采纳
2
回答
如何获取刮伤壳中的刮伤响应
、
、
、
、
我对
Scrapy
项目很陌生,我读过很多教程。它们似乎都假设您知道如何立即解析响应对象,并且
可以
立即调用响应回调(例如
scrapy
.Request(
url
=
url
, callback=self.parse))。但在现实中,我需要
使用
试用和错误的CSS选择器。 如何取回
Scrapy
响应对象,以便能够交互地操作它?
scrapy
.Request(
url
=
url
)的响应似乎是我无法
处理
的(见屏幕截图)--不需
浏览 4
提问于2017-04-09
得票数 2
回答已采纳
1
回答
如何使Selenium与
Scrapy
并行运行?
、
、
我试着用
Scrapy
和Selenium来刮一些urls。有些urls由
Scrapy
直接
处理
,而其他urls则首先
使用
Selenium
处理
。问题是: Selenium在
处理
url
时,
Scrapy
没有并行
处理
其他
url
。它等待work驱动程序完成它的工作。我尝试在不同的进程中
使用
不同的init参数(
使用
多
处理
池)来,但是我得到了twisted.internet.err
浏览 5
提问于2020-04-13
得票数 3
回答已采纳
1
回答
如何
使用
Scrapy
项并以json格式存储输出?
、
、
、
url
": "www.
url
.com"},但是在
使用
项目之后,我看到了一些值,"], "kategorie": ["xyz"], "
url
": &q
浏览 2
提问于2022-01-31
得票数 0
回答已采纳
1
回答
Scrapy
有物品限制吗?
、
、
、
、
在那些日子里,我用Python用
Scrapy
制作了一个蜘蛛。它基本上是一个简单爬行器类,用于对Html页面中的某些字段进行简单的解析。我不
使用
starts_
url
[]
Scrapy
字段,但我
使用
如下的个性化列表:def __init__(self,
url
, data): self.
url
self.
url
_to_scrape.append(start_urls_mod(
url
_
浏览 3
提问于2015-10-16
得票数 0
2
回答
在
scrapy
项目加载器上
使用
正则表达式
、
、
、
我正在尝试弄清楚如何在
scrapy
项目加载器中
使用
regex。我曾尝试将lambda函数与split()一起
使用
,但得到了以下错误。无法定义拆分。您
可以
看到该函数在项目加载器类中被注释掉了。日期项是我刚刚解析的
url
。如何将正则表达式与
scrapy
项目加载器一起
使用
?我
可以
将正则表达式传递给项目加载器,还是必须在爬行器中
处理
它?"]
浏览 4
提问于2018-02-20
得票数 0
回答已采纳
1
回答
解析回调没有定义--简单的Webscraper (
Scrapy
)仍然没有运行
、
、
一旦我
使用
规则并将“callback=”解析“”更改为“callback=”“parse_item”,任何事情都不再起作用。制定规则似乎是可行的。因此,我实际上希望它能够运行,而不是在解析函数中
处理
输出。response_dictionary): print(response_dictionary["
ur
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
2
回答
在刮刮中嵌套项数据的正确方法
例如,我想要一个产品的输出:'price': price,'meta': { 'added_on': added_onclass ProductItem(
scrapy
.Item):
url
=
scrapy
.Field(output_processor=TakeFirs
浏览 1
提问于2014-08-02
得票数 13
回答已采纳
3
回答
使用
第一个
URL
的结果刮取多个
URL
、
、
我
使用
Scrapy
从第一个
URL
中抓取数据。 list = ["http://a.com", "h
浏览 3
提问于2015-03-11
得票数 1
回答已采纳
1
回答
在引用
url
时调用
Scrapy
- POST请求,而不是初始请求。
、
、
当我
使用
scrapy
时,Post请求会通过:> 2017-05-21 22200) <POST> (referer: None) True`>>> from <
浏览 3
提问于2017-05-21
得票数 1
回答已采纳
1
回答
用Python3 (
Scrapy
,BS4)抓取网站确实会产生不完整的数据。找不到原因
、
、
我现在正试图从其他网站上获取其他的数据,这一次是
使用
SCRAPY
。我尝试了以下URLS: name = "whisky" yield
scrapy
.Request(
url
=
url
, callback=self.parse) def parse
浏览 4
提问于2020-10-22
得票数 0
1
回答
Splash的响应不会将javascript呈现为html
、
、
、
import
scrapy
2017-10-28 11:53:43 [
scrapy
.utils.log] INFO: Overridden: ['
scrapy
.extensions.corestats.Cor
浏览 0
提问于2017-10-28
得票数 0
2
回答
如何
使用
Python
Scrapy
模块列出我网站上的所有
URL
?
、
、
我想
使用
Python从我的网站抓取所有的,并将列表写入一个文件。我查看了示例,但没有看到任何简单的示例来完成此操作。
浏览 23
提问于2012-03-05
得票数 24
回答已采纳
1
回答
scrapy
selenium驱动程序没有遵循
、
、
start_urls=['http://httpbin.org/ip'] print(response.body) yield SeleniumRequest(
url
=
url
,callback
浏览 68
提问于2019-05-17
得票数 1
1
回答
在scraper.py中
使用
粗糙的自定义设置
、
、
、
我想
使用
scrapy
runspider
scrapy
.py运行这个
scrapy
文件,它没有任何如何
使用
自定义设置的文件,比如'CONCURRENT_ requests ':1,但是当start_requests请求 for
url
in self.urls: reque
浏览 0
提问于2018-06-20
得票数 0
0
回答
如何在同一位置
使用
Scrapy
请求和获取响应?
、
、
我尝试过
使用
请求,但速度很慢,有时无法加载页面。response =
scrapy
.Request(
url
=variantUrl) si
浏览 2
提问于2018-07-13
得票数 3
1
回答
Scrapy
.request没有获得新的
url
、
我发现hte
scrapy
.request并没有得到新的
url
,并且在项目‘
url
’中总是只有基
url
被追加并因此下载。import
scrapy
from
scrapy
.selector import Selector print
url
, 'go to
scrapy</
浏览 6
提问于2016-12-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从零开始的 Python 爬虫速成指南
不想使用的麦德龙购物卡有什么方式可以处理
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
爬虫你可能都会用,但是背后的架构你真的懂了吗?
Python爬虫入门,快速抓取大规模数据6
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券