腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scrapy
从facebook中
抓取
数据
、
、
、
我想通过刮擦刮刮结果
页面
()。import sysfrom
scrapy
.http import FormRequest from
scr
浏览 3
提问于2013-05-31
得票数 5
1
回答
在python中浏览/解析html
页面
、
、
、
、
为了与html
页面
进行交互,我试图把一些我需要的插件集合在一起。我需要的范围从简单的浏览和与按钮或网页链接(如“在这个文本框中写一些文本并按这个按钮”)进行交互,到解析html
页面
和向服务器发送自定义get/post消息。
浏览 3
提问于2014-04-17
得票数 1
回答已采纳
1
回答
如何将Keep_Fragments参数设置为True?
我正在尝试
抓取
一个使用
Js
的站点,但
scrapy
一直将下一个
页面
的url作为副本丢弃,并停止
抓取
。根据我的理解,
scrapy
通过检查请求所指向的资源的散列来检查重复项,默认情况下会丢弃URL中的片段。(参见下面的
scrapy
发布说明摘录) “
scrapy
.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹
浏览 20
提问于2020-09-09
得票数 0
回答已采纳
1
回答
使用
Scrapy
抓取
ajax
页面
、
、
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个网站(事实上我已经
抓取
了900个网站),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试使用以下代码,并对
抓取
ajax
页面
进行适当的更改第二个问题是,我面临的问题是
scrapy
无法
抓取
登录
页面<
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
您如何区分哪些站点是HTML &
JS
,哪些站点是使用React、Angular等通过
JS
呈现的?
、
、
、
在创建我的第一个爬虫时,我想检查网站是否使用了某个框架。我知道我可以使用SplashRequest来使用无头浏览器来呈现它,但这样做效率不高。我如何才能弄清楚哪些网站需要通过Splash,哪些网站不需要这样做,而不是真正制作无用的SplashRequests?
浏览 3
提问于2021-03-26
得票数 0
1
回答
如何使用
Scrapy
更新价格
、
、
、
、
我正在开发价格下降通知应用程序,我正在考虑使用
Scrapy
,但是,我不确定如何使用它,我是否需要在特定间隔后定期检查产品价格,或者有任何其他方法来做到这一点。
浏览 2
提问于2021-06-13
得票数 0
2
回答
使用Python自动化创建例程的最佳方法
、
它应该做的是浏览几个网站,点击一些按钮,
抓取
所需的信息,存储收集的信息,并填写一些表格。使用Python可以做到这一点吗?如果是,那么最紧凑的方法是什么?
浏览 1
提问于2013-05-07
得票数 0
2
回答
在
Scrapy
响应中执行内联JavaScript
、
、
、
、
我试图用
Scrapy
登录一个网站,但收到的响应是一个只包含内联JavaScript的超文本标记语言文档。
JS
重定向到我想要从中
抓取
数据的
页面
。但是
Scrapy
不执行
JS
,因此不会路由到我想要的
页面
。'request_id': request_id, } yield
scrapy
.FormRequestc
浏览 72
提问于2017-06-22
得票数 3
1
回答
登录
页面
上的
抓取
内容未通过管道传递
我有一个elasticsearch管道,它将索引所有
抓取
的内容到elasticsearch。我的问题是从start_urls
页面
抓取
的内容被编入了索引。在
scrapy
中有什么设置可以实现它吗?
scrapy
是否只考虑从start_url
页面
抓取
页面
中的
抓取
内容?
浏览 0
提问于2014-08-26
得票数 0
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
、
、
、
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
如何
抓取
一个网站只给定域网址与
scrapy
、
、
、
我正在尝试使用
scrapy
抓取
一个网站,但网站没有网站地图或
页面
索引。如何使用
scrapy
抓取
网站的所有
页面
? 我只需要下载网站的所有
页面
,而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
2
回答
Scrapy
:提取数据(css-selector)
、
、
scrapy
shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3
浏览 1
提问于2020-08-03
得票数 0
1
回答
抓取
不能
抓取
链接-- vnexpress网站评论
、
我是
Scrapy
& Python的新手。我尝试从以下URL获取注释,但结果始终为null:from
scrapy
.spiders import Spider from
scrapy
.selector import Selector
浏览 4
提问于2016-05-12
得票数 0
回答已采纳
1
回答
使用
scrapy
splash对
抓取
速度有显著影响吗?
、
、
、
、
到目前为止,我一直在使用
scrapy
和编写自定义类来处理使用ajax的网站。但是,如果我使用
scrapy
-splash,据我所知,它会在javascript之后
抓取
呈现的html,爬虫的速度会受到严重影响吗?使用
scrapy
抓取
一个普通的html
页面
所需的时间与使用
scrapy
-splash
抓取
javascript渲染的html所需的时间进行了怎样的比较?最后,
scrapy
splash和Selenium的比较如何?
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
1
回答
使用
scrapy
抓取
重定向的urls
、
我正在尝试使用
抓取
来
抓取
www.mywebsite.com。我如何告诉
scrapy
我需要它来
抓取
重定向的url?我只需要它来爬行重定向的网址,而不是其他网址,导致的网站(如facebook
页面
等) 2016-11-27 14:48:42 [
scrapy
浏览 1
提问于2016-11-27
得票数 1
1
回答
如何并行运行Selenium-
scrapy
、
、
、
、
我正在尝试使用
scrapy
和selenium来
抓取
javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站,使用
scrapy
从当前
页面
抓取
到不同列表的所有链接,并将它们存储在一个列表中(到目前为止,这是最好的方法,因为尝试使用seleniumRequest跟踪链接并回调到解析新
页面
函数已经导致了很多错误)。然后,我循环遍历URL列表,在selenium驱动程序中打开它们,并从
页面
中
抓取
信息。到目前为止,这个
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
3
回答
在使用
Scrapy
进行
抓取
之前,检查URL是否在文件中
、
、
我正在
抓取
一个包含URL列表的大文件。显然,我不能连续地
抓取
所有的URL。我当前的解决方案从文件中读取URL。一旦它从该
页面
抓取
和下载文档,我就会写入一个新文件,如下所示: # >
scrapy
c
浏览 6
提问于2019-10-11
得票数 0
1
回答
如何使用
Scrapy
进行多页
抓取
?
、
、
、
---- * <-- START / #-----*-----/ 这是一个我想用
scrapy
处理的网站的结构,其中*是一个
页面
,-表示链接。我想
抓取
#页的数据。我已经做了一个可以从一个
页面
抓取
数据的
抓取
器。import
scrapy
class MyItem(
scrapy</
浏览 2
提问于2017-03-07
得票数 1
2
回答
使用Python
Scrapy
时的HTTP 403响应
、
、
我一直在测试下面的
Scrapy
代码,以递归地
抓取
www.whoscored.com站点上的所有
页面
,该站点用于足球统计:from
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractor from
scrapy
.selector import Selectorfrom
scrapy
.item impor
浏览 0
提问于2014-07-18
得票数 11
回答已采纳
1
回答
如何从多个
页面
中
抓取
项目?
、
我正在尝试
抓取
#页的数据。我已经做了一个可以从一个
页面
抓取
数据的
抓取
器。但它在刮掉第一页后突然完成了工作# -*- coding: utf-8 -*-import csvfrom
scrapy
.selector import Selector class Proddduct(
scr
浏览 11
提问于2019-11-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy爬虫实战-国外soybase网站跨页面抓取
谈谈scrapy抓取豆瓣影评
scrapy抓取 高考派大学数据
爬虫抓取页面图片
Scrapy递归抓取简书用户信息
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券