腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PHP
/HTML或
PHP
服务器调用scrapy脚本
、
、
、
、
我有一个刮擦的脚本,它将运行多个
蜘蛛
。我想从
PHP
/HTML代码中
爬行
单个
蜘蛛
或运行多个
蜘蛛
脚本。这有可能吗?如果是这样的话,是怎么做的?
浏览 2
提问于2015-11-22
得票数 0
回答已采纳
1
回答
如何防止Scrapy
爬行
“拒绝”页面
、
、
我正在尝试
爬行
一个域的所有页面,除了那些从/go.
php
开始的页面,但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则),但是它仍然
爬行
像domain.tld/go.
php
?key=value这样的URL。.*' '\\/go\\.
php
(.*)', '
浏览 3
提问于2014-01-11
得票数 0
1
回答
htaccess选项-Indexes会防止
蜘蛛
和搜索引擎在目录中
爬行
文件吗?
、
设置带有-Indexes选项的htaccess文件会防止
蜘蛛
和搜索引擎
爬行
这些目录中的文件吗? 仅仅在目录中有一个index.html或index.
php
会阻止目录被
爬行
吗?
浏览 3
提问于2018-02-11
得票数 0
回答已采纳
3
回答
普通浏览器中的用户代理是否包含“bot”或“
爬行
”?
普通浏览器中的用户代理是否包含“bot”或“
爬行
”? 我检查我的网站上的用户代理,看看它是否来自一个机器人。如果是的话,我可以做一些小的优化,因为他们没有登录。所以我想知道它是只包含“机器人”还是“
爬行
”。我知道这不会得到所有的机器人,但它会得到很多。但如果这可能导致任何错误,那么它将完全混乱的能力,添加到购物车,下订单,并登录。
浏览 0
提问于2010-10-11
得票数 12
回答已采纳
3
回答
为什么所有搜索引擎都收录就360不收呢?
做个了
蜘蛛
爬行
记录
一个360的都没。在他站长工具什么天极加了一倍的
蜘蛛
爬行
可就是不行。难道360做小动作禁止了腾讯云的ip?不知道有没有遇到过?
浏览 575
提问于2015-12-30
1
回答
BaseSpider和CrawlSpider在一起
、
我想知道是否有一种方法同时使用基础
蜘蛛
以及
爬行
蜘蛛
在同一
蜘蛛
在刮刮!假设我只想
爬行
start_url中提到的一个start_url,并对同一个start_url中提到的另一个页面使用
爬行
蜘蛛
,那么我将如何在同一个程序中使用它们?
浏览 0
提问于2014-02-04
得票数 1
回答已采纳
1
回答
空调度程序,在scrapy中使用URL填充调度程序
、
问题是,我正在使用代理刮一个网站,所以网站将关闭一些我需要的信息,当我向网站请求后,一些计数。所以我要做的是,在没有登录+代理的情况下,尽可能多地抓取,但是经过一些抓取之后,我才知道这个站点不允许数据。所以现在我必须登录!(现在登录+代理),所以在登录后我继续刮。现在的问题是,队列(Scheduler)中已经有一些URL没有登录就会被抓取(所以我想用登录获取那个URL,这样我就可以成功地抓取数据)。所以,,我想要空调度程序,它包括不需要登录的url .。1。我登录(成功)。3并将优先级1设置为登录URl1。重新加载所有排
浏览 1
提问于2020-01-16
得票数 0
1
回答
Scrapy如何多次编写CSV文件
、
、
我用抓取和python 2.7.9,我的
蜘蛛
可以正常地
爬行
数据。我该怎么做?我只能用“
蜘蛛
”来做吗?或者是在“管道”里?我的代码链接:
浏览 3
提问于2015-03-13
得票数 0
回答已采纳
2
回答
蜘蛛
只在站点地图中
爬行
urls吗?
、
、
、
、
我在我的网站上有一些限制部分供
蜘蛛
爬行
。或者我应该将下面的元标记添加到我想限制访问的页面中?
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
1
回答
如何生成由我的站点服务的所有有效URL的列表
、
这份名单是由另一个系的一所学院出于
记录
原因而要求的。 如果不需要代码更改(因为它是生产站点),而代码更改需要通过代码评审并要求发布,那么答案将特别有用,但是如果有必要的话,那么它就是必要的。
浏览 0
提问于2014-03-14
得票数 2
回答已采纳
1
回答
共享访问访问的urls在多个
蜘蛛
之间的刮刮?
、
、
、
我正在使用scrapyd运行多个
蜘蛛
作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表,当它
爬行
时,它与其他
蜘蛛
共享和协调。当我创建同一
蜘蛛
的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是
爬行
相同的urls,重复的数据正在被抓取。以前有人处理过类似的问题吗?
浏览 0
提问于2014-04-13
得票数 0
回答已采纳
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 将所有的功能移到
蜘蛛
1,
浏览 2
提问于2017-08-09
得票数 1
1
回答
一只一只地跑多只
蜘蛛
、
、
我正在使用Scrapy框架让
蜘蛛
爬过一些网页。基本上,我想要的是刮网页并将它们保存到数据库中。我每个网页都有一只
蜘蛛
。但是我很难同时运行这些
蜘蛛
,以至于一只
蜘蛛
在另一只
蜘蛛
完成
爬行
后才开始
爬行
。
浏览 3
提问于2014-02-11
得票数 0
回答已采纳
2
回答
抓取Django限制链接
爬行
、
、
首先,我应该说,我对刮擦和
蜘蛛
网站完全陌生。 你能限制
爬行
的链接数量吗?我有一个网站,不使用分页,只是列出了很多链接(我
爬行
)在他们的主页。当我真的需要
爬行
前10个左右的时候,我感觉很糟糕
爬行
所有这些链接。如何同时运行多个
蜘蛛
?现在,我使用的是命令scrapy crawl example.com,但我还为example2.com和example3.com提供了
蜘蛛
。我想用一个命令来运行我所有的
蜘蛛
。这有可能吗?
浏览 2
提问于2010-11-24
得票数 6
1
回答
网页
爬行
技术的信息
、
我正在构建一个小型的网络爬虫,我想知道是否有人对实际的实现有一些有趣的信息(只是
爬行
,没有搜索,没有排名,没有分类,只是
爬行
,亲吻:)。为了
记录
在案,我已经有了O‘’Reilly“
蜘蛛
黑客”和“无淀粉出版社”的“网络机器人、
蜘蛛
和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。
浏览 5
提问于2009-05-18
得票数 2
1
回答
Python Scrapy不
爬行
网站
、
、
、
请帮助我,或给我一些建议,我如何可以
爬行
整个网站或更多的网页,在一般情况下.import scrapy title = scrapy.Field() 我的wikip.py (
蜘蛛
浏览 4
提问于2016-05-19
得票数 0
1
回答
网络爬虫设计中的DFS与BFS
、
、
我想出一个面试问题,想知道你对此的看法。问题是在设计网络爬虫时:2)如何避免进入无限循环?
浏览 1
提问于2013-12-14
得票数 6
回答已采纳
1
回答
用Anaconda运行抓取
蜘蛛
、
、
、
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyEr
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
多核执行刮除
、
、
我可以管理我的
蜘蛛
使用其他CPU核心或多个相同的
蜘蛛
并行运行吗?'available_pos_date', '//div[@class="fiche-items"]/div/p/text()') 基本上这是我的
蜘蛛
浏览 3
提问于2018-03-02
得票数 1
回答已采纳
1
回答
刮刀、
爬行
器和
蜘蛛
在抓取中的区别
、
、
“替罪羊”、“爬虫”和“
蜘蛛
”这几个词令人困惑。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎蜘蛛为什么对网站不爬行呢?
从业多年的SEO大牛讲述快速吸引蜘蛛爬行网站的技巧
搜索引擎的网络爬虫、网页蜘蛛爬行知识分享,robots协议能阻止站点被爬吗
php宝塔搭建实战防诈记录妖妖灵php源码
如何书写网站robots文件,让蜘蛛有自知之明?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券