使用Scrapy中的项目

文章/答案/技术大牛

发布

3回答

未知命令:爬网错误

python、scrapy、web-crawler

我是python的新手。我在64位操作系统上运行python 2.7.3版本32位。(我尝试了64位，但不起作用)。C:\Python27\Scripts>scrapy Scrapy</e

浏览 3提问于2012-04-12得票数 33

2回答

如何在启动刮伤外壳时禁用robots.txt？

python、scrapy、web-crawler、robots.txt、scrapy-shell

我使用Scrapy时，几个网站都没有问题，但是当机器人(robots.txt)不允许访问一个站点时，我会发现问题。如何通过Scrapy (忽略存在)禁用机器人检测？提前谢谢你。我说的不是Scrapy创建的项目，而是Scrapy命令：scrapy shell 'www.example.com'

浏览 2提问于2016-11-26得票数 11

回答已采纳

1回答

尝试使用Scrapy创建货币解析器。创建了两个蜘蛛，如果它们单独运行，它们可以正常工作。尝试为每个进程运行两个爬行器-在输出中不提供任何数据。无论是否尝试将其保存到txt、json或数据库。使用MySQL数据库。但是在每个进程中运行一个爬虫--成功地保存了数据。将数据保存到数据库或其他任何位置的唯一方法是运行scrapy crawl Liga && scrapy crawl IFinance。主要的爬虫代码： fro

浏览 12提问于2019-04-25得票数 0

回答已采纳

1回答

用Anaconda运行抓取蜘蛛

python-2.7、scrapy、anaconda、scrapy-spider

你好，我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_name但是，当我直接导

浏览 5提问于2016-10-06得票数 2

回答已采纳

1回答

刮刮:如何针对不同的项目使用不同的settings.py

python、scrapy

我希望在scrapy中使用不同的项目设置，我的目录结构是： -project1 -settings.py -settings.py我的scrapy.cfg是：default = project1.settings[deploy] project = proje

浏览 1提问于2018-07-26得票数 1

2回答

指示Scrapy忽略站点的内容长度

python、http、curl、scrapy

问题curl --ignore-content-length -u <user:pass> http://data.icecat.biz但是，我不知道如何在中做到这一点。谷歌和文档对我没有任何启示。在我深入研究Scrapy代码来解决这个问题之前，也许已经有人这样做了。

浏览 0提问于2016-04-09得票数 3

回答已采纳

1回答

Python抓取如何查找更多命令

python、scrapy

我试图使用scrapy访问“爬行”命令，但它会引发“未知命令:爬行”错误。所以我想我必须去刮刮的地方然后从那里跑。不过，当我试着做这个的时候：Scrapy 1.4.0 - no active project谢谢你的帮助<3当我运行我的项目文件，也就是我在D dir上创建自己时

浏览 1提问于2017-09-08得票数 1

回答已采纳

1回答

Python Scrapy* tutorial KeyError：‘找不到爬虫：*

python、scrapy

我正在尝试编写我的第一个抓取蜘蛛，我一直在上的教程，但我得到一个错误"KeyError：‘蜘蛛找不到：“scrapy scrapy.cfg(proscraper)#( 10/14/14@ 2:13pm )( tim@localhost ):~/Workspace/Developm

浏览 2提问于2014-10-14得票数 6

回答已采纳

4回答

没有模块名为scrapy时，打开擦伤项目中的py魅力。

python、scrapy、pycharm

我已经生成了Scrapy项目，但是当我在PyCharm中打开这个项目时 import scrapy name = "quotes" urls = [ 'http:&#

浏览 6提问于2018-01-14得票数 1

1回答

我是否可以在另一个项目中引用Scrapy项目，就像c#中的多个项目引用一样？

c#、python、scrapy、pycharm

1.创建一个新的python项目，创建一个新的.py文件；2.reference项目(甚至我也不知道怎么做)；3.在新的python文件中编写导入:从scrapy.selector导入选择器从scrapy.http导入HtmlResponse 4.IDE报告未解决的引用错误(出于原因)：我不知道如何修复它。我做得对吗？它起作用了吗？

浏览 4提问于2017-10-13得票数 0

回答已采纳

3回答

如何重新启动venv项目

python、python-3.x、scrapy

我是新来的Scrapy，我昨晚刚做完一个项目，我怎么能重新开始使用这个项目呢？我确实运行了source venv/scripts/activate，然后while启动了，但是当我运行scrapy crawl时，我得到了一个错误 Use "scrapy" to see available commands

浏览 11提问于2022-04-01得票数 0

回答已采纳

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

python、scrapy、file-read

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。，当我停止爬行器并尝试从我离开的地方继续时，程序从URL的原始文本文件开始，并开始重新搜索并使用相同的内容覆盖以前的下载。我尝试将代码放入爬行器中，以检查传递给解析函数的URL是否在"completed_urls.txt“文件中……但显然，随着完成的URL数量<e

浏览 6提问于2019-10-11得票数 0

1回答

从项目目录外部运行的scrapy引发异常

python、scrapy

我在下面的目录中有一个刮擦的项目“教程”项目目录结构如下所示。我想通过我的自定义python脚本runspiders.py运行这个蜘蛛。from __future__ import print_function from scrapy.crawler import CrawlerProcess from项目文件夹内运行时，蜘蛛将正确运行。C:\wamp64\www

浏览 9提问于2016-12-14得票数 2

2回答

ModuleNotFoundError:我的项目中文件夹结构问题？

python、scrapy

我刚开始使用scrapy和vscode，我的项目非常好，直到我决定在上传github之前整理文件夹。在那之后，整个项目就不再有效了。我很确定我搞砸了文件夹结构： ├── project1/ │ │ ├── spiders│ │ ├── middlewares.py │

浏览 5提问于2022-05-14得票数 -1

3回答

python scrapy不能工作-- "ImportError: No module named settings“

python、scrapy

/usr/lib/python2.7/site-packages/scrapy中杂乱无章的库.../projects/scrapy 在目录.../projects/parser_mo

浏览 4提问于2014-07-04得票数 5

2回答

从Python脚本中运行scrapy* - CSV导出程序不起作用*

python、python-2.7、export、twisted、scrapy

当我从命令行运行它时，我的刮取器工作得很好，但是当我试图在python脚本中运行它(使用使用Twisted的方法概述 )时，它不会输出它通常所做的两个CSV文件。我有一个创建和填充这些文件的管道，其中一个使用CsvItemExporter()，另一个使用writeCsvFile()。命令行末尾的输出表明，预期的页面数已被爬行，并且爬行器似乎已经正常完成。我没有收到任何错误信息。将打印语

浏览 3提问于2013-07-20得票数 6

回答已采纳

2回答

Scrapy 1.1.0 -无活动项目

python、python-2.7、pydev

我是Python的新手，在eclipse中使用PyDev成功安装了Scrapy。当我运行该程序时，它显示如下所示(如图所示)我正在运行这段代码： name = "dmoz

浏览 1提问于2016-06-27得票数 7

1回答

python、scrapy

我使用Scrapy并尝试输出一个json文件。当我不使用item，但我想使用它们时，它工作得很好。所以我的爬虫代码是： import jsonfrom scrapy.loader import ItemLoader }) yield loader.load_ite

浏览 20提问于2019-03-18得票数 1

回答已采纳

1回答

运行蜘蛛:错误:找不到文件：-刮伤

python、scrapy

 start_urls = [] 2016-05-25 20:26:42 [scrapy] INFO: Scrapy 1.1.0 started (bot: tutorial) 2016-05-2520:26:42

浏览 4提问于2016-05-26得票数 5

回答已采纳

1回答

抓取:如何使用爬行器中的项目，以及如何将项目发送到管道？

python、scrapy、scrapy-spider、scrapy-pipeline

我是scrapy新手，我的任务很简单：我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道？我找不到一个使用项目和管道

浏览 4提问于2017-05-11得票数 18

回答已采纳

点击加载更多

未知命令:爬网错误

如何在启动刮伤外壳时禁用robots.txt？

在一个进程中运行多个爬行器--没有保存输出数据

用Anaconda运行抓取蜘蛛

刮刮:如何针对不同的项目使用不同的settings.py

指示Scrapy忽略站点的内容长度

Python抓取如何查找更多命令

Python Scrapy* tutorial KeyError：‘找不到爬虫：*

没有模块名为scrapy时，打开擦伤项目中的py魅力。

我是否可以在另一个项目中引用Scrapy项目，就像c#中的多个项目引用一样？

如何重新启动venv项目

在使用Scrapy进行抓取之前，检查URL是否在文件中

从项目目录外部运行的scrapy引发异常

ModuleNotFoundError:我的项目中文件夹结构问题？

python scrapy不能工作-- "ImportError: No module named settings“

从Python脚本中运行scrapy* - CSV导出程序不起作用*

Scrapy 1.1.0 -无活动项目