腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
为什么python会抛出一个"ImportError:没有名为
linkextractor
的
模块“,即使
Scrapy
模块已经安装了?
、
、
、
、
它需要
scrapy
和slybot。我还安装了virtualenv (按照推荐)并执行了virtualenv Portia,以便仅为该项目创建一个python虚拟环境。现在它需要
使用
twistd -n slyd启动twisted服务器,但随后抛出了一个错误: File "/home/john/Downloads/portia-master/slybot/slybotfrom
scrapy
.
linkextractor
import IGNORED_EXT
浏览 1
提问于2014-04-05
得票数 3
2
回答
利用
LinkExtractor
和规则实现抓取中
的
爬行错误
、
、
、
、
我在Python3中用
Scrapy
1.5编写了一个简单
的
爬虫,我正在抓取文章和它
的
内容。import
scrapy
from
scrapy
.linkextractors import
LinkExtractor
"]/h2/a/@href'),follow = True), Rule(
LinkExtractor
浏览 0
提问于2018-05-11
得票数 0
1
回答
如何从带有
Scrapy
的
域列表中获取所有链接?
、
、
我已经做了多个
Scrapy
教程,但这还不是我发现
的
信息。编辑-这是我目前正在
使用
的
蜘蛛:import
scrapy
class JakeSpider
浏览 3
提问于2017-09-14
得票数 0
4
回答
刮除:没有名为“
scrapy
.contrib”
的
模块
、
我到处寻找解决这个问题
的
方法。我以前打电话“从
scrapy
.contrib.”没有问题但现在它抛出了这个错误。ModuleNotFoundError: No module named '
scrapy
.contrib' 作为最后
的
手段在这里张贴。这里
的
任何帮助都将受到极大
的
欢迎。
浏览 9
提问于2019-03-09
得票数 7
回答已采纳
2
回答
Python/
Scrapy
转到其他URL
、
所以我正在做一个关于
scrapy
的
小项目,我对python和
scrapy
还是个新手。basicurl = "canadianlawlist.com/" products = response.xpathsearchresult_item_regular"]/a/@href'
浏览 21
提问于2018-08-15
得票数 0
0
回答
使用
Scrapy
的
LinkExtractor
、
我正在尝试
使用
Scrapy
从页面中提取所有链接,但我很难
使用
LinkExtractor
。我尝试过以下几种方法:from
scrapy
.spiders import CrawlSpider, Rulefrom Funda.items import FundaItem class FundaSpider(
scrapy</e
浏览 0
提问于2016-07-13
得票数 4
回答已采纳
1
回答
抓取:创建爬行索引页并保存每个相应链接
的
整个HTML页面的蜘蛛
、
、
我对
Scrapy
很陌生,我正在尝试探索它
的
一些功能。我希望能成功地创建一个刮板,它可以在页面上抓取一组链接--比如索引页--并将整个页面保存为对应链接
的
HTML页面。(逻辑是我可以在以后脱机阅读内容,或者在我
使用
Scrapy
更高级
的
功能之后创建一个调度程序)import urlparse from
scrapy
.http import Re
浏览 2
提问于2017-09-14
得票数 2
回答已采纳
1
回答
只抓取网站
的
一部分
、
、
、
你好,我有下面的代码扫描所有的链接在一个给定
的
网站。from
scrapy
.item import Field, Itemfrom
scrapy
.contrib.linkextractors例如,我尝试只扫描一个国际站点
的
法语部分,其域结构为: domain.com/fr/fr。所以我试着做: from
scrapy
.item import Field, Ite
浏览 4
提问于2014-07-17
得票数 3
回答已采纳
1
回答
刮伤NotSupported和TimeoutError
、
、
我
的
目标是找出每个包含daraz.com.bd/shop/
的
链接import
scrapy
name它在只收集包含daraz.com.bd/shop/
的
6-7个链接后自动停止。用户超时导致连接失败:获得https://www.daraz.com.bd/kettles/花费
的
时间超过18
浏览 5
提问于2020-12-04
得票数 0
回答已采纳
1
回答
链接提取错误
、
我
的
目标是提取一个特殊
的
数据在不同
的
links.For为目标链接
的
例子主页是,我想收集
的
价格价值 My code is like that : from
scrapy
.spiders import CrawlSpider,Rulefrom
scrapy
.selectorim
浏览 0
提问于2016-03-15
得票数 0
1
回答
抓取图片
的
url
、
、
、
如何
使用
python.please帮助me.this中
的
scrapy
从网站获取图像url是我
的
代码#from
scrapy
.linkextractors.lxmlhtml import LxmlLinkExtractor from
scrapy
.contrib.linkextractors import
LinkExtractor
from
scrapy</
浏览 1
提问于2016-03-09
得票数 3
2
回答
抓取相对urls
的
抓取LxmlLinkExtractor
、
、
我想抓取中标记下
的
所有相对urlsimport
scrapy
from homework.items importHomeworkItemfrom
scrapy
.contrib.linkextractors.lxmlhtmlimport LxmlLinkExtractor class N
浏览 23
提问于2016-08-29
得票数 1
1
回答
从爬虫迁移到CrawlSpider
我试图从一般
的
爬行器转移到CrawlSpider,以利用规则。然而,我
的
爬虫不再那样工作了。你知道我做错了什么吗?之前: class GitHubSpider(
scrapy
.Spider): start_urls = [ ] Rule(
浏览 9
提问于2021-08-08
得票数 0
回答已采纳
1
回答
刮擦:避免循环爬行。
、
我正在为tripAdvisor附近
的
酒店建造一个铲运机,它会解析如下
的
urls:Rule(SgmlLinkExtractora[contains(@class, "pageNext")]',), unique=True),但是在我
的
目的地url中,第一条规则是有效
的
,刮板将重新爬
浏览 0
提问于2015-07-20
得票数 2
回答已采纳
2
回答
提取链接图
谁能告诉我,是否有可能得到一些分析
的
链接提取
的
爬虫?我知道有分析API,但我不太清楚如何
使用
它,而且文档也很少。 Rule(
LinkExtractor
(allow=('business', )), callback='parse_item'
浏览 1
提问于2017-07-25
得票数 0
回答已采纳
2
回答
刮掉
的
CrawlSpider不跟随链接
、
、
、
、
我正在尝试从这个类别页面上
的
所有(#123)详细页面中爬行一些属性-- ,但是
scrapy
无法遵循我设置
的
链接模式,我检查了刮伤文档和一些教程,但是没有幸运!以下是代码:from
scrapy
.contrib.spidersstinkybklyn.com"] &qu
浏览 3
提问于2015-06-09
得票数 2
回答已采纳
1
回答
从csv文件读取start_urls
、
、
、
、
因此,我正在
使用
刮板库开发一个刮刀器,为了方便
使用
,我想让它从一个.csv文件中抓取它
的
启动urls。我已经对这个话题做了一些研究,我相信它正确地从.csv抓取了url,但是我遇到了一些奇怪
的
错误。我
的
蜘蛛看起来像这样,我
的
物品是非常基本
的
,因为我并没有用它做任何事情。最后,我会将信息存储回项目中,这样我就可以将它写回一个.csv,但现在我只想让爬行正常工作。我
的
输出看起来是:['ht
浏览 0
提问于2015-03-20
得票数 3
回答已采纳
1
回答
如何获取给定网页中
的
所有出站链接并遵循它们?
、
、
、
我有下面的代码来获取网页中
的
所有链接:from
scrapy
import Selectorfrom
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractor return items 我想做以下事情: 1)而不是获取所有
浏览 0
提问于2014-11-29
得票数 0
1
回答
抓取抓取整个网站
的
爬虫
、
、
我正在
使用
scrapy
抓取我拥有的旧网站,我
使用
下面的代码作为我
的
蜘蛛。我不介意为每个网页输出文件,或者一个包含所有内容
的
数据库。但是我确实需要能够让蜘蛛抓取整个东西,而不是我必须放入我当前必须做
的
每个单独
的
url。import
scrapy
name = "dmoz" allowed_domains = ["www.ex
浏览 1
提问于2016-04-25
得票数 15
回答已采纳
1
回答
刮擦错误: TypeError:__init__()得到了一个意外
的
关键字参数‘回调’
、
我试图通过提取所有链接中
的
"huis“(="house”,荷兰语)来抓取一个网站。跟着,我在尝试from
scrapy
.spiders import CrawlSpider, Rule name =
浏览 0
提问于2016-07-12
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy框架的使用之Scrapy入门
Scrapy框架的使用之Scrapy通用爬虫
Scrapy框架的使用之Scrapy爬取新浪微博
爬虫CrawlSpider原理
scrapy实践之item pipeline的使用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券