使用Scrapy的LinkExtractor

、、、、

它需要scrapy和slybot。我还安装了virtualenv (按照推荐)并执行了virtualenv Portia，以便仅为该项目创建一个python虚拟环境。现在它需要使用twistd -n slyd启动twisted服务器，但随后抛出了一个错误： File "/home/john/Downloads/portia-master/slybot/slybotfrom scrapy.linkextractor import IGNORED_EXT

浏览 1提问于2014-04-05得票数 3

2回答

利用LinkExtractor和规则实现抓取中的爬行错误

、、、、

我在Python3中用Scrapy1.5编写了一个简单的爬虫，我正在抓取文章和它的内容。import scrapyfrom scrapy.linkextractors import LinkExtractor"]/h2/a/@href'),follow = True), Rule(LinkExtractor

浏览 0提问于2018-05-11得票数 0

1回答

如何从带有Scrapy的域列表中获取所有链接？

、、

我已经做了多个Scrapy教程，但这还不是我发现的信息。编辑-这是我目前正在使用的蜘蛛：import scrapy class JakeSpider

浏览 3提问于2017-09-14得票数 0

4回答

刮除:没有名为“scrapy.contrib”的模块

、

我到处寻找解决这个问题的方法。我以前打电话“从scrapy.contrib.”没有问题但现在它抛出了这个错误。ModuleNotFoundError: No module named 'scrapy.contrib' 作为最后的手段在这里张贴。这里的任何帮助都将受到极大的欢迎。

浏览 9提问于2019-03-09得票数 7

回答已采纳

2回答

Python/Scrapy转到其他URL

、

所以我正在做一个关于scrapy的小项目，我对python和scrapy还是个新手。basicurl = "canadianlawlist.com/" products = response.xpathsearchresult_item_regular"]/a/@href'

浏览 21提问于2018-08-15得票数 0

0回答

、

我正在尝试使用Scrapy从页面中提取所有链接，但我很难使用LinkExtractor。我尝试过以下几种方法：from scrapy.spiders import CrawlSpider, Rulefrom Funda.items import FundaItem class FundaSpider(scrapy</e

浏览 0提问于2016-07-13得票数 4

回答已采纳

1回答

抓取:创建爬行索引页并保存每个相应链接的整个HTML页面的蜘蛛

、、

我对Scrapy很陌生，我正在尝试探索它的一些功能。我希望能成功地创建一个刮板，它可以在页面上抓取一组链接--比如索引页--并将整个页面保存为对应链接的HTML页面。(逻辑是我可以在以后脱机阅读内容，或者在我使用Scrapy更高级的功能之后创建一个调度程序)import urlparse from scrapy.http import Re

浏览 2提问于2017-09-14得票数 2

回答已采纳

1回答

只抓取网站的一部分

、、、

你好，我有下面的代码扫描所有的链接在一个给定的网站。from scrapy.item import Field, Itemfrom scrapy.contrib.linkextractors例如，我尝试只扫描一个国际站点的法语部分，其域结构为: domain.com/fr/fr。所以我试着做： from scrapy.item import Field, Ite

浏览 4提问于2014-07-17得票数 3

回答已采纳

1回答

刮伤NotSupported和TimeoutError

、、

我的目标是找出每个包含daraz.com.bd/shop/的链接import scrapy name它在只收集包含daraz.com.bd/shop/的6-7个链接后自动停止。用户超时导致连接失败:获得https://www.daraz.com.bd/kettles/花费的时间超过18

浏览 5提问于2020-12-04得票数 0

回答已采纳

1回答

链接提取错误

、

我的目标是提取一个特殊的数据在不同的links.For为目标链接的例子主页是，我想收集的价格价值 My code is like that : fromscrapy.spiders import CrawlSpider,Rulefrom scrapy.selectorim

浏览 0提问于2016-03-15得票数 0

1回答

抓取图片的url

、、、

如何使用python.please帮助me.this中的scrapy从网站获取图像url是我的代码#fromscrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.contrib.linkextractors import LinkExtractorfrom scrapy</

浏览 1提问于2016-03-09得票数 3

2回答

抓取相对urls的抓取LxmlLinkExtractor

、、

我想抓取中标记下的所有相对urlsimport scrapyfrom homework.items importHomeworkItemfrom scrapy.contrib.linkextractors.lxmlhtmlimport LxmlLinkExtractor class N

浏览 23提问于2016-08-29得票数 1

1回答

从爬虫迁移到CrawlSpider

我试图从一般的爬行器转移到CrawlSpider，以利用规则。然而，我的爬虫不再那样工作了。你知道我做错了什么吗？之前： class GitHubSpider(scrapy.Spider): start_urls = [ ] Rule(

浏览 9提问于2021-08-08得票数 0

回答已采纳

1回答

刮擦:避免循环爬行。

、

我正在为tripAdvisor附近的酒店建造一个铲运机，它会解析如下的urls：Rule(SgmlLinkExtractora[contains(@class, "pageNext")]',), unique=True),但是在我的目的地url中，第一条规则是有效的，刮板将重新爬

浏览 0提问于2015-07-20得票数 2

回答已采纳

2回答

提取链接图

谁能告诉我，是否有可能得到一些分析的链接提取的爬虫？我知道有分析API，但我不太清楚如何使用它，而且文档也很少。 Rule(LinkExtractor(allow=('business', )), callback='parse_item'

浏览 1提问于2017-07-25得票数 0

回答已采纳

2回答

刮掉的CrawlSpider不跟随链接

、、、、

我正在尝试从这个类别页面上的所有(#123)详细页面中爬行一些属性-- ，但是scrapy无法遵循我设置的链接模式，我检查了刮伤文档和一些教程，但是没有幸运！以下是代码：from scrapy.contrib.spidersstinkybklyn.com"] &qu

浏览 3提问于2015-06-09得票数 2

回答已采纳

1回答

从csv文件读取start_urls

、、、、

因此，我正在使用刮板库开发一个刮刀器，为了方便使用，我想让它从一个.csv文件中抓取它的启动urls。我已经对这个话题做了一些研究，我相信它正确地从.csv抓取了url，但是我遇到了一些奇怪的错误。我的蜘蛛看起来像这样，我的物品是非常基本的，因为我并没有用它做任何事情。最后，我会将信息存储回项目中，这样我就可以将它写回一个.csv，但现在我只想让爬行正常工作。我的输出看起来是：['ht

浏览 0提问于2015-03-20得票数 3

回答已采纳

1回答

如何获取给定网页中的所有出站链接并遵循它们？

、、、

我有下面的代码来获取网页中的所有链接：from scrapy import Selectorfrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor return items 我想做以下事情: 1)而不是获取所有

浏览 0提问于2014-11-29得票数 0

1回答

抓取抓取整个网站的爬虫

、、

我正在使用scrapy抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件，或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛抓取整个东西，而不是我必须放入我当前必须做的每个单独的url。import scrapy name = "dmoz" allowed_domains = ["www.ex

浏览 1提问于2016-04-25得票数 15

回答已采纳

1回答

刮擦错误: TypeError：init()得到了一个意外的关键字参数‘回调’

、

我试图通过提取所有链接中的"huis“(="house”，荷兰语)来抓取一个网站。跟着，我在尝试from scrapy.spiders import CrawlSpider, Rule name =

浏览 0提问于2016-07-12得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么python会抛出一个"ImportError:没有名为linkextractor的模块“，即使Scrapy模块已经安装了？

利用LinkExtractor和规则实现抓取中的爬行错误

如何从带有Scrapy的域列表中获取所有链接？

刮除:没有名为“scrapy.contrib”的模块

Python/Scrapy转到其他URL