腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PHP
/HTML或
PHP
服务器调用scrapy脚本
、
、
、
、
我有一个刮擦的脚本,它将运行多个
蜘蛛
。我想从
PHP
/HTML代码中
爬行
单个
蜘蛛
或运行多个
蜘蛛
脚本。这有可能吗?如果是这样的话,是怎么做的?
浏览 2
提问于2015-11-22
得票数 0
回答已采纳
1
回答
如何防止Scrapy
爬行
“拒绝”页面
、
、
我正在尝试
爬行
一个域的所有页面,除了那些从/go.
php
开始的页面,但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则),但是它仍然
爬行
像domain.tld/go.
php
?key=value这样的URL。.*' '\\/go\\.
php
(.*)', '
浏览 3
提问于2014-01-11
得票数 0
1
回答
htaccess选项-Indexes会防止
蜘蛛
和搜索引擎在目录中
爬行
文件吗?
、
设置带有-Indexes选项的htaccess文件会防止
蜘蛛
和搜索引擎
爬行
这些目录中的文件吗? 仅仅在目录中有一个index.html或index.
php
会阻止目录被
爬行
吗?
浏览 3
提问于2018-02-11
得票数 0
回答已采纳
3
回答
普通浏览器中的用户代理是否包含“bot”或“
爬行
”?
普通浏览器中的用户代理是否包含“bot”或“
爬行
”? 我检查我的网站上的用户代理,看看它是否来自一个机器人。如果是的话,我可以做一些小的优化,因为他们没有登录。所以我想知道它是只包含“机器人”还是“
爬行
”。我知道这不会得到所有的机器人,但它会得到很多。但如果这可能导致任何错误,那么它将完全混乱的能力,添加到购物车,下订单,并登录。
浏览 0
提问于2010-10-11
得票数 12
回答已采纳
1
回答
BaseSpider和CrawlSpider在一起
、
我想知道是否有一种方法同时使用基础
蜘蛛
以及
爬行
蜘蛛
在同一
蜘蛛
在刮刮!假设我只想
爬行
start_url中提到的一个start_url,并对同一个start_url中提到的另一个页面使用
爬行
蜘蛛
,那么我将如何在同一个程序中使用它们?
浏览 0
提问于2014-02-04
得票数 1
回答已采纳
1
回答
Scrapy如何多次编写CSV文件
、
、
我用抓取和python 2.7.9,我的
蜘蛛
可以正常地
爬行
数据。我该怎么做?我只能用“
蜘蛛
”来做吗?或者是在“管道”里?我的代码链接:
浏览 3
提问于2015-03-13
得票数 0
回答已采纳
2
回答
蜘蛛
只在站点地图中
爬行
urls吗?
、
、
、
、
我在我的网站上有一些限制部分供
蜘蛛
爬行
。或者我应该将下面的元标记添加到我想限制访问的页面中?
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
1
回答
如何生成由我的站点服务的所有有效URL的列表
、
是否有方法生成站点将解析的所有有效URL的列表,包括重定向?这份名单是由另一个系的一所学院出于记录原因而要求的。模块方面,除其他外,安装了xmlsitemap、重定向、路径重定向导入、路径自动和病理学。我不确定这些是否有用。 作为第二个问题,如果没有一种方法可以自动生成格式良好的列表中的所有urls,那么除了手动收集所有视图URLs和重定向URLs之外,我还应该在哪里查找呢?
浏览 0
提问于2014-03-14
得票数 2
回答已采纳
1
回答
共享访问访问的urls在多个
蜘蛛
之间的刮刮?
、
、
、
我正在使用scrapyd运行多个
蜘蛛
作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表,当它
爬行
时,它与其他
蜘蛛
共享和协调。当我创建同一
蜘蛛
的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是
爬行
相同的urls,重复的数据正在被抓取。以前有人处理过类似的问题吗?
浏览 0
提问于2014-04-13
得票数 0
回答已采纳
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 将所有的功能移到
蜘蛛
1,
浏览 2
提问于2017-08-09
得票数 1
1
回答
一只一只地跑多只
蜘蛛
、
、
我正在使用Scrapy框架让
蜘蛛
爬过一些网页。基本上,我想要的是刮网页并将它们保存到数据库中。我每个网页都有一只
蜘蛛
。但是我很难同时运行这些
蜘蛛
,以至于一只
蜘蛛
在另一只
蜘蛛
完成
爬行
后才开始
爬行
。
浏览 3
提问于2014-02-11
得票数 0
回答已采纳
2
回答
抓取Django限制链接
爬行
、
、
首先,我应该说,我对刮擦和
蜘蛛
网站完全陌生。 你能限制
爬行
的链接数量吗?我有一个网站,不使用分页,只是列出了很多链接(我
爬行
)在他们的主页。当我真的需要
爬行
前10个左右的时候,我感觉很糟糕
爬行
所有这些链接。如何同时运行多个
蜘蛛
?现在,我使用的是命令scrapy crawl example.com,但我还为example2.com和example3.com提供了
蜘蛛
。我想用一个命令来运行我所有的
蜘蛛
。这有可能吗?
浏览 2
提问于2010-11-24
得票数 6
1
回答
Python Scrapy不
爬行
网站
、
、
、
请帮助我,或给我一些建议,我如何可以
爬行
整个网站或更多的网页,在一般情况下.import scrapy title = scrapy.Field() 我的wikip.py (
蜘蛛
浏览 4
提问于2016-05-19
得票数 0
1
回答
用Anaconda运行抓取
蜘蛛
、
、
、
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyEr
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
多核执行刮除
、
、
我可以管理我的
蜘蛛
使用其他CPU核心或多个相同的
蜘蛛
并行运行吗?'available_pos_date', '//div[@class="fiche-items"]/div/p/text()') 基本上这是我的
蜘蛛
浏览 3
提问于2018-03-02
得票数 1
回答已采纳
1
回答
刮刀、
爬行
器和
蜘蛛
在抓取中的区别
、
、
“替罪羊”、“爬虫”和“
蜘蛛
”这几个词令人困惑。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
2
回答
抓饼干怎么操作?
、
、
我必须
爬行
一个网站,所以我使用Scrapy来完成它,但是我需要传递一个cookie来绕过第一个页面(这是一种登录页面,您可以选择您的位置)如何处理曲奇?
浏览 0
提问于2014-04-28
得票数 2
回答已采纳
6
回答
如何给抓取URL抓取抓取?
、
我想用刮擦来
爬行
网页。有办法从终端本身传递起始URL吗?在中,可以给出
蜘蛛
的名称或URL,但是当我给出url时它会抛出一个错误: 文件"/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7
浏览 3
提问于2012-03-13
得票数 35
回答已采纳
2
回答
刮伤机构或规则不起作用
、
、
、
这是我的
蜘蛛
from scrapy.linkextractors import LinkExtractor当我使用命令“”运行
蜘蛛
时:我得到了“解析!”,所以它只属于解析函数,而不是细节方法。
浏览 8
提问于2017-08-01
得票数 0
回答已采纳
1
回答
一个
蜘蛛
能处理多个项目和多个管道吗?
、
、
scrapy.There的新鲜事物让我感到困惑:
蜘蛛
、管道和物品之间有什么关系? 1.一个管道应该只处理一个特定的项目还是可以处理多个项目?2.如何使用一个
蜘蛛
来
爬行
多个项目,或者我应该使用一个
蜘蛛
来
爬行
一个项目?
浏览 3
提问于2015-05-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎蜘蛛为什么对网站不爬行呢?
从业多年的SEO大牛讲述快速吸引蜘蛛爬行网站的技巧
搜索引擎的网络爬虫、网页蜘蛛爬行知识分享,robots协议能阻止站点被爬吗
如何书写网站robots文件,让蜘蛛有自知之明?
网站优化之哪些设置会影响蜘蛛的爬取?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券