腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(1337)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
从
脚本
中运行Scrapy :模块未找到错误- projectname.items不是一个包
我试着运行多个
爬虫
,就像中说的那样。
脚本
是通过调用scrapy crawl crawler运行的。现在,通过python crawler.py调用它,我得到了以下错误: ModuleNotFoundError:没有名为“爬行器”的模块;“
爬虫
”不是一个包import scrapyfrom scrapy.linkextractors import LinkExtractor我的项目叫
浏览 3
修改于2020-06-20
得票数 1
回答已采纳
1
回答
加载settings.py之前先运行代码
我有一个利用代理的网络
爬虫
。我有一个
脚本
,它生成一个包含100个有效代理的列表,然后在settings.py中将该列表设置为代理源。我的问题是,目前我手动运行一个生成该文件的
脚本
,然后运行
爬虫
。我不想在运行
爬虫
之前手动运行这个
脚本
,因为我希望它是独立包含的。ROTATING_PROXY_LIST_PATH = 'C:\\Users\\cmdan\\Desktop\\
Spiders
\\Michael Mitarotonda\\proxies.txt'
浏览 3
提问于2021-03-23
得票数 0
回答已采纳
1
回答
抓取
爬虫
在作为
脚本
运行时会忽略`DOWNLOADER_MIDDLEWARES`
/crawlers/myproject/myproject/
spiders
./crawlers/myproject/myproject/
spiders
/example.py./crawlers
浏览 1
修改于2017-05-23
得票数 2
回答已采纳
2
回答
Scrapy在所有爬行器关闭时获得通知
我正在使用django开始抓取抓取
spiders
= scrapyd.list_
spiders
("default") scrapyd.schedule("default", spider, list_id=list.id,
spiders
_number=3) 我可以基于list_id连接所有
浏览 1
修改于2020-03-26
得票数 0
4
回答
无法在刮伤
爬虫
中导入我自己的模块
我在用Scrapy写
爬虫
。我已经造了一个
爬虫
,它工作得很好。现在我想创建自己的模块,但我总是收到以下错误: ModuleNotFoundError:没有名为“模块测试”的模块 from scrapy.
spiders
import CrawlSpider, Rule from
浏览 0
修改于2018-12-20
得票数 3
1
回答
完成刮伤
爬虫
时更新变量
当我在一个循环中运行多个
爬虫
时,我想要跟踪有多少个
爬虫
。我尝试的是使用信号,但我的
爬虫
似乎找不到它的范围以外的其他模块。我想做的是注册爬行是在另一个
脚本
中完成的,例如通过传递/更新一个变量。示例代码(简写版本-解释问题):isWikipediaDone = False process.crawl(file)
浏览 1
提问于2017-03-29
得票数 2
回答已采纳
1
回答
试图将刮伤蜘蛛导入django时出现导入错误
当用户提出请求时,我正在尝试运行django项目中的刮取蜘蛛,因此我目前正在测试来自的代码,以便从
脚本
中运行蜘蛛。当我试图从蜘蛛文件导入函数来运行
爬虫
进程时,我会得到一个导入错误。这是我所用的声明:带有测试文件的文件 UPDATE I能够让爬行器从
脚本
中运行;但是,我现在正在从条目模块的
浏览 0
修改于2015-07-21
得票数 0
回答已采纳
1
回答
带有身份验证或cookie的Python scrapy
我有以下网络
爬虫
脚本
是正确的工作,我需要的是一个集成身份验证或在每个请求发送cookies的方式from scrapy.
spiders
import CrawlSpider
浏览 1
提问于2021-06-01
得票数 1
1
回答
试图从
脚本
中的另一个位置运行刮伤
爬虫
URL列表(Scrapy work )C:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndex\
spiders
\GetAdUrls_spider.py ( "GetAdUrls_spider“文件中蜘蛛的名称是(name = "getadurls"))C:\Website_DATA\SCRIPTS\StepByStepLauncher.py 我尝试使用Scrapy文档导入<
浏览 5
提问于2013-07-28
得票数 2
回答已采纳
1
回答
如何建立我的抓取蜘蛛到一个可执行文件使用py2exe?
我使用scrapy创建一个项目,并在"
spiders
“文件夹中添加我自己的爬行器,比如"spider_us.py",我想构建一个可在其他计算机上执行的可执行文件,而不需要安装scrapy。from distutils.core import setup然而,它不起作用,因为当我运行我的
爬虫
时,我使用命令"scrapy crawl spider_us“,而不是直接运行”
爬虫
“文件夹中的
浏览 1
修改于2013-10-18
得票数 6
5
回答
当
脚本
位于根目录之外时,获取scrapy项目设置
我已经制作了一个Scrapy爬行器,可以从位于项目根目录的
脚本
中成功运行。由于我需要从同一
脚本
运行来自不同项目的多个
爬虫
(这将是一个django应用程序根据用户的请求调用
脚本
),因此我将
脚本
从其中一个项目的根目录移动到父目录。下面我还有运行蜘蛛的
脚本
代码,谢谢。from ticket_city_scraper.ticket_city_scraper import * from ticket_city_scraper.ticket_city_scraper.
spiders
浏览 2
提问于2015-07-28
得票数 15
2
回答
如何在Scrpay Spider中动态创建JOBDIR设置?
self.site_name = kw.get('site_name') #our rest part of code from scrapy.utils.project import get_project_settings all_
spiders
= ['spider1','spider2','sp
浏览 27
提问于2018-09-07
得票数 0
1
回答
链接提取器无法获取超出特定路径的路径
在"productsinfamily“页面中列出了特定的产品(可能在一个java
脚本
中)。我的
爬虫
无法访问这些单独的产品页面。下面是
爬虫
蜘蛛的代码-from scrapy.
spiders
import CrawlSpider, Rule from scrapy.linkextractors import
浏览 5
修改于2018-01-28
得票数 0
1
回答
Python -无法导入本地库
我有一个刮擦的
爬虫
,我想在我的
爬虫
中使用当地的图书馆。下面是我的目录模型:有两个重要文件db/base.py和/
爬虫
/蜘蛛/adilisik.pyfrom sqlalchemy import create_engine from crawler.db.base import BaseCould not load
spid
浏览 1
修改于2017-05-23
得票数 1
1
回答
无法使用bash - cron将目录更改为
脚本
。
我有一个运行多个Python
爬虫
实例的
脚本
,Crawler是int /root/crawler/batchscript.py
爬虫
工作得很好。scrapy.settings import Settingsfrom amazon_crawler.
spiders
.amazon_scrape
浏览 3
提问于2016-11-17
得票数 0
回答已采纳
1
回答
刮刀、爬行器和蜘蛛在抓取中的区别
“替罪羊”、“
爬虫
”和“蜘蛛”这几个词令人困惑。例如scrapy.crawler有人能在Scrapy的背景下解释这些术语的含义和差异吗?提前谢谢。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
1
回答
抓取过期域名
我使用Scrapy抓取不同的网站,但实际上我的
脚本
跟踪每个网站,并添加到数据库的域名和后,我用PHP
脚本
检查过期的域名。在将域名添加到数据库之前,如何直接检查域名是否过期?我的
爬虫
: from scrapy.
spiders
import CrawlSpider
浏览 0
提问于2016-03-07
得票数 3
4
回答
在批处理文件中使用scrapy crawl命令时继续批处理
脚本
命令
我已经写了
爬虫
代码,它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。问题是,批处理
脚本
在"Scrapy Crawl“命令的末尾停止,并且不会继续执行批处理文件中后面的行。我该如何解决这个问题?批处理文件的内容:scrapy crawl mySpider -o outputData.json -t json python refineData.py
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
1
回答
在Scrapy中顺序运行多个
爬虫
目前,这是我的运行
脚本
:from scrapy.crawler import Crawlerfrom CSTest.
spiders
.CStest import MySpider我需要以某种方式检测一个
爬虫</e
浏览 2
提问于2014-11-28
得票数 4
1
回答
scrapyd deploy显示0个蜘蛛
Python-urllib/2.7" 正如你所看到的,虽然我在project/
spiders
/ folder中写了3个
爬虫
,但是得到的
爬虫</em
浏览 2
修改于2017-06-04
得票数 5
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券