腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PHP
/HTML或
PHP
服务器调用scrapy脚本
、
、
、
、
我有一个刮擦的脚本,它将运行多个
蜘蛛
。我想从
PHP
/HTML
代码
中
爬行
单个
蜘蛛
或运行多个
蜘蛛
脚本。这有可能吗?如果是这样的话,是怎么做的?
浏览 2
提问于2015-11-22
得票数 0
回答已采纳
1
回答
如何防止Scrapy
爬行
“拒绝”页面
、
、
我正在尝试
爬行
一个域的所有页面,除了那些从/go.
php
开始的页面,但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则),但是它仍然
爬行
像domain.tld/go.
php
?key=value这样的URL。.*' '\\/go\\.
php
(.*)', '
浏览 3
提问于2014-01-11
得票数 0
1
回答
Scrapy如何多次编写CSV文件
、
、
我用抓取和python 2.7.9,我的
蜘蛛
可以正常地
爬行
数据。我该怎么做?我只能用“
蜘蛛
”来做吗?或者是在“管道”里?我的
代码
链接:
浏览 3
提问于2015-03-13
得票数 0
回答已采纳
1
回答
htaccess选项-Indexes会防止
蜘蛛
和搜索引擎在目录中
爬行
文件吗?
、
设置带有-Indexes选项的htaccess文件会防止
蜘蛛
和搜索引擎
爬行
这些目录中的文件吗? 仅仅在目录中有一个index.html或index.
php
会阻止目录被
爬行
吗?
浏览 3
提问于2018-02-11
得票数 0
回答已采纳
3
回答
普通浏览器中的用户代理是否包含“bot”或“
爬行
”?
普通浏览器中的用户代理是否包含“bot”或“
爬行
”? 我检查我的网站上的用户代理,看看它是否来自一个机器人。如果是的话,我可以做一些小的优化,因为他们没有登录。所以我想知道它是只包含“机器人”还是“
爬行
”。我知道这不会得到所有的机器人,但它会得到很多。但如果这可能导致任何错误,那么它将完全混乱的能力,添加到购物车,下订单,并登录。
浏览 0
提问于2010-10-11
得票数 12
回答已采纳
1
回答
Python Scrapy不
爬行
网站
、
、
、
请帮助我,或给我一些建议,我如何可以
爬行
整个网站或更多的网页,在一般情况下.import scrapy title = scrapy.Field() 我的wikip.py (
蜘蛛
浏览 4
提问于2016-05-19
得票数 0
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 将所有的功能移到
蜘蛛
1,
浏览 2
提问于2017-08-09
得票数 1
1
回答
如何在刮削中设置深度极限
、
、
我用这个
蜘蛛
爬行
一个页面并下载它的图片:from scrapy.contrib.linkextractors= [urljoin(response.url, url) for url in relative_urls] 但是这里有两个问题,第一个问题是,在运行
蜘蛛
时,我不能将深度限制设置为我使用的"-s DEPTH_LIMIT=1“: [医]刮刮<e
浏览 3
提问于2016-02-01
得票数 1
回答已采纳
1
回答
BaseSpider和CrawlSpider在一起
、
我想知道是否有一种方法同时使用基础
蜘蛛
以及
爬行
蜘蛛
在同一
蜘蛛
在刮刮!假设我只想
爬行
start_url中提到的一个start_url,并对同一个start_url中提到的另一个页面使用
爬行
蜘蛛
,那么我将如何在同一个程序中使用它们?
浏览 0
提问于2014-02-04
得票数 1
回答已采纳
2
回答
蜘蛛
只在站点地图中
爬行
urls吗?
、
、
、
、
我在我的网站上有一些限制部分供
蜘蛛
爬行
。或者我应该将下面的元标记添加到我想限制访问的页面中?
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
1
回答
如何生成由我的站点服务的所有有效URL的列表
、
如果不需要
代码
更改(因为它是生产站点),而
代码
更改需要通过
代码
评审并要求发布,那么答案将特别有用,但是如果有必要的话,那么它就是必要的。
浏览 0
提问于2014-03-14
得票数 2
回答已采纳
1
回答
共享访问访问的urls在多个
蜘蛛
之间的刮刮?
、
、
、
我正在使用scrapyd运行多个
蜘蛛
作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表,当它
爬行
时,它与其他
蜘蛛
共享和协调。当我创建同一
蜘蛛
的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是
爬行
相同的urls,重复的数据正在被抓取。以前有人处理过类似的问题吗?
浏览 0
提问于2014-04-13
得票数 0
回答已采纳
1
回答
一只一只地跑多只
蜘蛛
、
、
我正在使用Scrapy框架让
蜘蛛
爬过一些网页。基本上,我想要的是刮网页并将它们保存到数据库中。我每个网页都有一只
蜘蛛
。但是我很难同时运行这些
蜘蛛
,以至于一只
蜘蛛
在另一只
蜘蛛
完成
爬行
后才开始
爬行
。
浏览 3
提问于2014-02-11
得票数 0
回答已采纳
2
回答
抓取Django限制链接
爬行
、
、
首先,我应该说,我对刮擦和
蜘蛛
网站完全陌生。 你能限制
爬行
的链接数量吗?我有一个网站,不使用分页,只是列出了很多链接(我
爬行
)在他们的主页。当我真的需要
爬行
前10个左右的时候,我感觉很糟糕
爬行
所有这些链接。如何同时运行多个
蜘蛛
?现在,我使用的是命令scrapy crawl example.com,但我还为example2.com和example3.com提供了
蜘蛛
。我想用一个命令来运行我所有的
蜘蛛
。这有可能吗?
浏览 2
提问于2010-11-24
得票数 6
3
回答
抓取:
爬行
多个
蜘蛛
,共享相同的项、管道和设置,但具有不同的输出。
、
、
、
我试图使用Python脚本运行多个
蜘蛛
,该脚本基于官方文档中提供的
代码
。我的scrapy项目包含多重
爬行
器(Spider1、Spider2、 等),它
爬行
不同的网站,并将每个网站的内容保存在不同的JSON文件中(output1.json、output2.json等)。当我单独运行这些
蜘蛛
时,它们会像预期的那样工作,但是当我使用下面的脚本使用scrapy运行
蜘蛛
时,条目就会混合在管道中。also Spider1,应该只包含由
爬行
的项,但也应该包含 Spider2的项。如何
浏览 2
提问于2017-07-25
得票数 3
回答已采纳
1
回答
用Anaconda运行抓取
蜘蛛
、
、
、
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyEr
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
用反应器在不同的时间执行不同的
蜘蛛
、
我想点击django网站上的一个按钮,我的
蜘蛛
应该开始抓取。我尝试CrawlerProcess,但因为我使用不同的
蜘蛛
。我决定使用CrawlerRunner。在第一次
爬行
之后,一切都很好,但是第二个过程给了我这个错误。twisted.internet.error.ReactorNotRestartable因此,我尝试按照下面的
代码
解决方案,但是
爬行
器永远不会停止,它说的是ReactorAlreadyRunningmyspider.My_Spider) d.addBot
浏览 1
提问于2020-08-26
得票数 1
回答已采纳
1
回答
多核执行刮除
、
、
我可以管理我的
蜘蛛
使用其他CPU核心或多个相同的
蜘蛛
并行运行吗?'available_pos_date', '//div[@class="fiche-items"]/div/p/text()') 基本上这是我的
蜘蛛
浏览 3
提问于2018-03-02
得票数 1
回答已采纳
1
回答
刮刀、
爬行
器和
蜘蛛
在抓取中的区别
、
、
试着阅读Scrapy的
代码
。“替罪羊”、“爬虫”和“
蜘蛛
”这几个词令人困惑。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
2
回答
抓饼干怎么操作?
、
、
我必须
爬行
一个网站,所以我使用Scrapy来完成它,但是我需要传递一个cookie来绕过第一个页面(这是一种登录页面,您可以选择您的位置)如何处理曲奇?
浏览 0
提问于2014-04-28
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎蜘蛛为什么对网站不爬行呢?
从业多年的SEO大牛讲述快速吸引蜘蛛爬行网站的技巧
PHP代码审计
php防cc代码
PHP性能优化之PHP代码最佳实践
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券