scrapy数据库_scrapy编辑mysql数据库_scrapy 抓取js数据库 - 腾讯云开发者社区

、、

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy -即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反，我现在将文档正文与项解析一起缓存，并且我希望能够让Scrapy遍历数据库中的这些文档，而不是爬行目标URL。我该如何修改Scrapy，让我可以选择传递一组文档，然后像从web上下

浏览 1提问于2015-09-05得票数 3

2回答

随后抓取多个蜘蛛

、

我对scrapy有点陌生，我被困在了一个点上。我想在蜘蛛关闭时重新启动它。我在这里尝试实现的是从数据库获取URL，我编写视图的方式是，每当我发送"scrapy crawl xyz“请求时，start_request将获得一个URLnext URL，该URL与从数据库传递的前一个请求中的URL不同。问题是，如果在数据库中有四个spider_closed，我需要运行"scrapy crawl xyz“4次，但我想避免这种情况，当当前的”URLS“在爬行器的末尾被调用时，我试图触发"scrapy crawl xyz”。请帮帮忙

浏览 17提问于2016-07-29得票数 2

1回答

我如何“重新解析”记录在数据库中的html页面？

、、

我用Scrapy在我的数据库中记录了html页面。我想用同样的管道对它们进行修复。如何从数据库中获取页面，使其遵循与普通Scrapy管道相同的管道？

浏览 1提问于2017-08-17得票数 0

回答已采纳

1回答

如何从外部应用程序获取scrapy的urls

、、

给出你的标准scrapy应用程序： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in urls:

浏览 3提问于2017-05-26得票数 0

1回答

Scrapy不会连接到MSSQL数据库

、、、

固定我的蜘蛛完全正常工作，我可以将数据导出到JSON、CSV和MongoDB。但是，由于我将处理大量数据，所以我想使用MSSQL。为了找到解决方案，我已经浏览过google和堆栈溢出，但是尽管多次尝试，scrapy还是不会连接到数据库。我的哥哥是一个SQL开发人员，他帮助我建立了一个本地数据库，我可以用它来存储我的数据。所以我很确定数据库(这是非常基本的)的设置是正确的。我目前在我的桌面上本地托管SQL服务器，我的桌面是它的用户名。我没有设置密码，我的数据库名为"kaercher“。我想将数据导出到名为"products_tb“的表中。我已经给了自己完整的sysadmin访

浏览 1提问于2019-08-23得票数 0

回答已采纳

1回答

ScrapingHub与远程数据库

、、

我正在用start_urls创建一个蜘蛛，并且我想使用MySQL数据库在我的蜘蛛中获取scrapy。现在我想知道是否有可能将scrapy-cloud连接到远程数据库？

浏览 2提问于2015-07-20得票数 2

1回答

使用空字符串初始化类(scrapy Item)

、

我正在将一个我在items.py中定义的项目类插入到mongodb中，但我需要它来插入类的所有字段，这样它就会将这些字段作为空添加到数据库中。listing类下的Name和Price将始终作为空插入，但我希望保持pipelines.py干净，这样我就可以轻松地切换到另一项。目前，如果我不将类的每个部分设置为空字符串，则在插入到数据库中时不会添加该字符串。是否需要将每个成员初始化为空dict？像Title = scrapy.Field({})这样的东西 items.py class Listing(scrapy.Item): Title = scrapy.Field() Add

浏览 1提问于2017-08-08得票数 1

1回答

Web用Scrapy迭代Postgres数据库结果

、、、

我正在尝试编写一个从数据库结果中获取域的。我能够从数据库中获取数据，但我无法思考如何将数据提供给Scrapy。我在这里看了看，发现了许多建议，但没有一个是我真正在做的。当我在下面运行我的代码时，任何事情都不会发生，甚至不会出错。 scaper.py #import json import json #import database library import psycopg2 #import scrapy library import scrapy #create database connection conn = psycopg2.connect( host="lo

浏览 3提问于2022-03-05得票数 0

回答已采纳

1回答

在Django中使用Scrapy DjangoItem的最佳方式

、、

我是Django / Scrapy的新手，对编程也很熟悉。我正在试着做一个Django网站来帮助我学习。我想做的是从不同的网站抓取产品信息，并使用来自Scrapy的DjangoItem将它们存储在我的postgres数据库中。我已经阅读了Scrapy和Django的所有文档。我已经在这里和其他网站搜索了几天，就是找不到让灯泡熄灭的确切原因。不管怎样，我的问题是，同时部署Scrapy和Django的标准是什么？理想情况下，我想刮5-10个不同的网站，并在我的数据库中存储他们的信息。 Scrapy的文档中关于实现DjangoItem的最佳方法的信息有点少。 1) Scrapy项目应该在我的D

浏览 2提问于2013-05-23得票数 3

回答已采纳

1回答

Python下载文件夹中的图像

、

我有一个Python和Scrapy的问题，我使脚本仍然有效，并将所有的数据放在MongoDB上，但当他抓取时，他仍然只在数据库中拍摄照片，但我想以此结构下载/项目/照片/链接页面/名称.jpg 这里有我的代码！这是Itmes.py import scrapy from PIL import Image class RedditItem(scrapy.Item): ''' Defining the storage containers for the data we plan to scrape '''

浏览 3提问于2018-02-28得票数 0

1回答

将图像路径名保存在数据库中

、

我已经用Scrapy成功地抓取了一个网站上的图像数据，并将图像保存在一个文件夹中。但我想将图像的路径名保存在mysql数据库中。就像下面的爬行器的结果一样，我想将数据“路径”转发到管道，但我不知道如何选择它 'images': [{'checksum': '75873dcc0944e29787525197648aa1a6', 'path': 'full/91e6d13e3ad32def287f98199c8bbe1915c71773.jpg', 'url

浏览 11提问于2019-08-05得票数 1

回答已采纳

1回答

下载图片会导致值重复并给出错误

、

Spider运行正常，并将数据保存在mongodb中，但突然开始在数据库、json和csv中保存重复的值，我删除了下载图像的代码，它工作得很好，但我需要图像，有人能帮我吗？提前谢谢。 items.py 导入scrapy class BucketItem(scrapy.Item): # define the fields for your item here like: store_name = scrapy.Field() category = scrapy.Field() sub_category = scrapy.Field() name = scrapy.Field() unit = s

浏览 0提问于2019-11-05得票数 0

1回答

Scrapy + Python，返回多个项，发布读取页面

、、

我试图使用Scrapy和python将多个项提取到数据库中。为了构建我的代码，我首先使用Scrapy读取页面，并测试与数据提取相关的代码行。 scrapy shell "http://www.goodmans.net/d/1706/brands.htm" 我尝试了以下功能，并得到了我想要的结果(提取所有品牌) response.css('.SubDepartments a::text').extract() 然后我构建了代码，用scrapy crawl goodmans运行它，它给了我一个错误： import scrapy import pandas

浏览 2提问于2020-03-18得票数 0

回答已采纳

2回答

刮擦蜘蛛没有在后记上写字

、、、

我正在尝试从一个网站的几页废品到一个postgres数据库。我试过不同的密码，但仍然不能工作，我的数据库仍然是空的. 如何将网站页面中的项目报废到Postgres数据库？我的代码怎么了? 我向您展示该代码的最新版本： Myspider.py #!/usr/bin/env python #-*- coding: utf-8 -*- import scrapy, os, re, csv from scrapy.spiders import CrawlSpider, Rule, Spider from scrapy.linkextractors import LinkExtractor from

浏览 1提问于2017-10-23得票数 0

回答已采纳

2回答

Scrapy / Python和SQL Server

、、

有没有可能使用Scrapy从网站上获取数据，并将这些数据保存在Microsoft SQL Server数据库中？如果是，有没有这样做的例子？这主要是Python的问题吗？也就是说，如果我发现一些Python代码保存到SQL Server数据库中，那么Scrapy也可以这样做吗？

浏览 0提问于2013-02-07得票数 0

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',

浏览 1提问于2017-04-07得票数 2

2回答

从子目录中为托管在Heroku上的Django项目运行非Django命令？

、、

我已经在Heroku上部署了一个Django应用程序。应用程序本身运行良好。我可以运行诸如heroku run python project/manage.py syncdb和heroku run python project/manage.py shell之类的命令，并且运行得很好。我的Django项目使用了名为Scrapy的Python web抓取库。Scrapy附带了一个名为scrapy crawl abc的命令，它可以帮助我抓取我在scrapy应用程序中定义的网站。当我在本地机器上运行诸如scrapy crawl spidername之类的抓取命令时，应用程序能够抓取日期并将其复制到

浏览 1提问于2012-01-27得票数 3

回答已采纳

1回答

抓取增量抓取以过滤重复项目

、、

我想定期运行Scrapy来获取所有新内容。生成的项目存储在数据库中。当Scrapy再次爬行时，验证已经生成的项目是否没有存储为重复项的最佳方法是什么？给项目一个哈希值是验证这一点的好方法吗？我不想在我的数据库中有重复的项目。谢谢!

浏览 3提问于2018-01-31得票数 1

2回答

如果在python中扩展一个类，如何导入另一个类并使用它？

、、、

所以我在玩Scrapy，它是一组类，允许你进行web抓取，我想把一些数据放到数据库中，但我让truble在扩展scrapy库的同时导入MySQL方法。下面是我的代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request import MySQLdb class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc

浏览 2提问于2011-12-10得票数 0

回答已采纳

1回答

刮取管道-如何在SQL查询中创建变量？

、、、

我试图将我刮过的数据(productid、类别、名称、描述、价格和时间戳)存储在Microsoft数据库的两个单独的表上。一个名为products_tb的表生成productid、category、name和description。将数据存储在这个相应数据库中的SQL语句也会创建一个productgroupid。必须使用productgroupid存储其余的数据，即price和timestamp在名为pricefluctuation的第二个表中。这背后的想法是，我有一个表与所有独特的产品和一个表，它产生的所有价格+时间戳的所有这些产品的每日更新。然后可以使用productgroupid对所有价

浏览 2提问于2019-09-24得票数 0

回答已采纳

2回答

刮刮MongoDB与弹性搜索同步

、、

我使用Scrapy从网站和mongodb获取数据以实现持久性，并使用elasticsearch进行搜索。我的问题是，当Scrapy将数据插入到Mongodb时，即使将侦听器设置为插入、更新和删除，Elasticsearch也不知道。我应该为Scrapy添加一个新插件，以便直接与Elasticsearch通信，如果是的话，为什么侦听器不听数据库发生了什么？谢谢!

浏览 0提问于2014-02-07得票数 1

1回答

如何在使用scrapy框架进行抓取时排除已抓取的urls

、、

我正在抓取一个新闻网站，该网站提取新闻数据并将其转储到MongoDB。我的爬虫是用以下规则定义的： rules = [Rule( LinkExtractor( allow=["foo.tv/en/*", "https://fooports.tv/*"] # only such urls 我目前所做的是，它从数据库中获取已经抓取的urls，如果在数据库中找到这些urls，则不处理这些urls，例如： urls_visited = get_visited

浏览 13提问于2021-05-12得票数 0

回答已采纳

1回答

如何刮掉一个懒惰的加载表单？

、、

我正在使用Scrapy1.2爬行一个在线数据库()。下面是我的代码的一瞥： class BdItemSpider(scrapy.Spider): name = "bdspider" start_urls = [ "http://bddatabase.net/jp/weapon/" ] def parse(self, response): item = BdItem() items = response.xpath("//table[@id='WeaponTabl

浏览 3提问于2016-11-22得票数 1

1回答

从Django调用Scrapy Spider

、、

我在同一个工作区中有一个包含django和scrapy文件夹的项目： my_project/ django_project/ django_project/ settings.py app1/ app2/ manage.py ... scrapy_project/ scrapy_project/ settings.py scrapy.cfg ... 我已经将scrapy与我的django app1模型连接

浏览 1提问于2017-02-28得票数 7

1回答

在有刮痕的网站上爬行所有评论

、

我试图抓取所有的评论在一个购物网站上使用Scrapy。我找到了这个密码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class deneme(CrawlSpider): name = 'deneme' allowed_domains = ['hepsiburada.com'] start_urls = ['https://www.hepsiburada.com/'] rul

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

通过扭曲的inlineCallbacks运行抓取蜘蛛

、、、、

我有ImportError: No module named 'spiders'，所以当蜘蛛调用发生时，我认为没有环境变量。但我不完全明白如何才能让他们正确地工作。基本上，我想运行一些Scrapy蜘蛛，他们将填充数据库，然后我的程序应该进行小的计算。这种情况应该经常发生(比如说每分钟)。由于已经在粗糙的依赖项中被扭曲，我决定将其结合起来。项目结构类似于(简单地说)： -Project |-src |- __init__.py |- spiders.py |-bot.py 在spiders.py中

浏览 0提问于2017-04-21得票数 1

1回答

刮取Start_Urls

、、、、

好的，要保持这一点，需要赶着去开会我正试图在抓取的开始urls，无论我如何尝试，我似乎无法完成它。这是我的代码(蜘蛛)。 import scrapy import csv from scrapycrawler.items import DmozItem from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.selector import Selector from scrapy.

浏览 2提问于2015-01-24得票数 1

回答已采纳

2回答

刮擦地传递参数和写入MySQL

、、

我正在做一个数据抓取项目，并且是一个新的刮刮项目。它看起来很强大，但也很棘手(至少一开始是这样)。我的MySQL数据库包括两个表："thelist“和"data”。 thelist表是一个实体列表--业务、博客、场所等--我已经为这些实体刮过目录站点(使用机械化、BeautifulSoup和regex)。数据表中的行id是"thelist_id“，它是返回到thelist表的外键。现在，我想使用蜘蛛到每个实体的自己的网站和刮电子邮件。我计划使用python脚本从"thelist“中选择一个实体，并使用os.system运行scrapy并发送命令行参数。 $

浏览 5提问于2015-10-19得票数 1

回答已采纳

1回答

scrapy :以编程方式将参数传递给crawler

、、

我正在做一个抓取爬行器。我有一个从数据库获取urls的python模块，应该配置scrapy为每个urls启动一个爬行器。因为我是从我的脚本开始使用scrapy的，所以我不知道如何像在命令行开关-a中那样向它传递参数，这样每次调用都会收到不同的url。下面是scrapy调用者的代码 def scrape_next_url() : conn = _mysql.connect(host, username, password, database_name) conn.query("select min(sortorder) from url_queue where processed

浏览 13提问于2017-07-23得票数 1

1回答

“刮”项目找不到django.core.management

、、

我试图按照方法从web中获取'Scrapy‘数据，同时使用Scrapy的项目管道将数据直接保存到我的Django数据库中。然而，当我试图运行scrapy crawl spidername时，我得到的是错误： ImportError: No module named django.core.management 起初，我认为这是因为我的Scrapy项目不在Django项目文件夹之外，但即使在我将整个项目移动到Django项目文件夹中之后，我仍然会收到相同的错误。如果我在Scrapy项目文件夹的新位置(在我的Django项目文件夹中)中打开python，import django.cor

浏览 2提问于2013-02-04得票数 2

1回答

在Scrapy类中定义其他方法

、

如何执行Scrapy类，以及如何将其他方法包含到蜘蛛类中？例如，从文档： import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computer

浏览 2提问于2016-05-17得票数 1

回答已采纳

1回答

如何在Scrapy start_url中找到当前的CrawlSpider？

、、、

当从自己的脚本运行Scrapy (从DB加载URL并遵循这些网站上的所有内部链接)时，我会遇到一个小问题。我需要知道当前使用的是哪个start_url，因为我必须保持与数据库(SQL )的一致性。但是:当Scrapy使用名为“start_urls”的内置列表来接收要跟踪的链接列表时，这些网站就会立即重定向，就会出现问题。例如，当Scrapy启动并且start_urls正在被爬行，并且爬虫跟踪在那里找到的所有内部链接时，我以后只能确定当前访问的URL，而不是Scrapy开始运行的start_url。其他来自网络的答案是错误的，因为去年Scrapy的代码似乎发生了变化，因此对于其他用例或废弃的答

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

抓取抓取整个网站的爬虫

、、

我正在使用scrapy抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件，或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛抓取整个东西，而不是我必须放入我当前必须做的每个单独的url。 import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["www.example.com"] start_urls = [ "http://www.example.com/contactus

浏览 1提问于2016-04-25得票数 15

回答已采纳

1回答

一次运行Scrapy脚本，处理输出，并加载到数据库？

、

我已经成功地编写了一个从网页抓取数据的Scrapy项目，当我在命令行使用scrapy crawl dmoz -o items.json -t json调用它时，它成功地将抓取的数据输出到JSON文件中。然后，我编写了另一个脚本，获取该JSON文件，加载它，更改数据的组织方式(我不喜欢它的默认组织方式)，并将其作为第二个JSON文件输出。然后使用Django的manage.py loaddata fixture.json命令将第二个文件的内容加载到Django数据库中。现在，我感觉到我会因为在三个独立的步骤中做这件事而被嘲笑，但我不太确定如何将所有这些都放在一个脚本中。首先，我不能让我的Sc

浏览 0提问于2013-02-03得票数 1

回答已采纳

1回答

使用scrapy将数据刮到一个变量，而不是文件/数据库

、

我正在尝试将scrapy作为python脚本运行，并希望处理被刮掉的数据，而不是存储在文件/数据库中。代码看起来就像 import scrapy import scrapy.crawler as crawler from scrapy.utils.log import configure_logging from multiprocessing import Process, Queue from twisted.internet import reactor # spider class QuotesSpider(scrapy.Spider): name = "quotes

浏览 5提问于2022-06-16得票数 2

1回答

如何防止重复数据被插入数据库

、、

有人能帮我解决这个问题吗?我是scrapy/python的新手。我似乎无法阻止重复数据被插入到数据库中。例如。如果我的数据库中有马自达4000美元的价格。如果'car‘已经存在或者'price with car’存在，我不希望爬虫再次插入爬行数据。 price | car ------------- $4000 | Mazda <---- $3000 | Mazda 3 <---- $4000 | BMW $4000 | Mazda 3 <---- I also dont want to have two results like this $4000

浏览 2提问于2015-04-04得票数 3

1回答

我不明白为什么scrapy不将比特币价格插入到mongodb中

、、

我是python scrapy的新手。我已经做了一些教程，我已经能够将数据发送到mongodb，但它没有在自己的简单项目中工作，即获取api并将比特币价格输入到mongodatabase中。我的scrapy项目如下： bitscrape/spiders/__init__.py # This package will contain the spiders of your Scrapy project # # Please refer to the documentation for information on how to create and manage # your spiders.

浏览 1提问于2018-01-12得票数 0

回答已采纳

1回答

使用Pymssql将数据插入MS SQL DB时出错

、、

修复了它对于一个教育项目，我试图将刮过的数据存储在MS数据库上。首先，我希望每一个独特的项目都放在products_tb中。插入唯一产品后，SQL必须为所述项生成唯一ID，即productgroupid。products_tb表只生成不会更改的产品信息，如productid, category, name and description。在第二个表中，我将在完成这项工作后创建该表，我将存储以下数据：productgroupid, price, timestamp。这样做的原因是，这些情况可能会不时发生变化。使用productgroupid，我可以在任何给定的时间对所有数据进行分组，并创建图表

浏览 0提问于2019-08-27得票数 1

回答已采纳

1回答

如何安排蜘蛛每5分钟跑一次？

、、、

几天来，我一直在想如何安排我的爬行蜘蛛，却没有任何运气。(我尝试了所有东西，从Windows到scrapy lib，但是在我的MAIN.PY上什么都没成功) (我的主要目标是安排我的蜘蛛每5分钟从NewsSpider到mySQL news_db数据库收集数据) 请看我的脚本，因为它有一点修改，并改变它，如果需要。我真的希望这件事能成功。 MAIN.PY from scrapy import cmdline cmdline.execute("scrapy crawl news".split()) NEWS_SPIDER.PY import scrapy from ..items

浏览 3提问于2020-04-06得票数 1

1回答

将html源代码保存到

、

我正在尝试将网站源代码保存到我的MySQL数据库中。使用urllib成功检索到源文件。下一步，保存数据。与数据库的连接没有问题，问题出在源代码的保存上，因为当我从insert语句中删除源代码时，一切都很正常。 # get the webpage source f = urllib.urlopen(row_urls['url']) source_fetched = f.read() f.close() # Save the webpage source scrapy_url_id = row_urls['id']

浏览 1提问于2012-10-29得票数 0

回答已采纳

1回答

将项插入到mongoDB ver3.4中

、、、

在完成我的爬行器时，我正在尝试mongoDB，作为将我的项目放入数据库的一种方法。这是用mongoDB 4.0和我的私有数据库(端口27017的本地主机)完成的。现在，我需要把项目放到一个真正的数据库中，而这正是我所处的位置。我有一个mongoDB运行(3.4个版本的用户名，密码，服务器等)，但我似乎无法找到如何连接到它。有了mongoDB 4.0，我就有了这个(在粗糙的管道中) import pymongo from scrapy.conf import settings from scrapy.exceptions import DropItem from scrapy impor

浏览 0提问于2019-06-26得票数 1

回答已采纳

1回答

为什么刮线不能从解析器方法中得到调用？

、

我创建了一个简单的scrapy项目，它可以抓取网页并将数据保存到postgresql中。我可以在我的解析方法中获取所有被刮过的数据，但是不调用pipline将数据保存到数据库中。这是我的蜘蛛解析方法。 def parse(self, response): links = response.css('a::attr(href)').getall() if links is not None: for link in links: yield response.follow(link,

浏览 5提问于2021-07-15得票数 0

回答已采纳

1回答

抓取数据并提取到mysql中

、、、、

我试图获取价格并将其保存到数据库中，但我找不出代码发生了什么变化，我可以提取数据，也可以在推荐中使用-o save.xml保存数据，但是当我试图集成settings.py将数据保存到MySql数据库时，一切都变了。当我试图再次使用-o save.xml保存信息时，它不会显示价格结果。我确实注意到我的数据库ID自动增量确实改变了，但是没有插入任何数据。有人能帮我吗？这是我的密码。 test.py ------------------------ import scrapy from scrapy.contrib.linkextractors.sgml import SgmlLinkExtrac

浏览 4提问于2015-03-30得票数 1

回答已采纳

1回答

使用Request从scrapy更新数据库表

、、

这是我在stackoverflow这里的第一个问题，我正在玩Scrapy，我被困在想要更新数据库链接的地方，一旦从Scrapy获取了这个链接，它就会被扫描=1。 # -*- coding: utf-8 -*- import scrapy import scrapy.http from scrapy.spiders import CrawlSpider, Rule from Testing.items import Testing100Item from scrapy.linkextractors import LinkExtractor from scrapy.http import Resp

浏览 5提问于2016-03-26得票数 0

回答已采纳

2回答

AttributeError:在使用scrapy时，“模块”对象没有属性“数据库”

、、

我试图在我的项目的根目录中运行scrapy shell，但是我一直收到一个关于某种数据库设置的模糊错误。我不确定这是否是SQLAlchemy thing...or，我的模式定义有什么问题吗？如果我从项目路径之外的任何其他目录运行scrapy shell http://some_website.com，则没有问题。试图启动外壳： me@me:~/my_spider$ scrapy shell http://some_website.com 2015-12-13 15:15:58-0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: my_bot) 2

浏览 0提问于2015-12-13得票数 2

回答已采纳

1回答

Scrapy:抓取后返回ids列表

、

我编写了一个自定义爬虫来递归浏览网站的页面，并将每次爬行的详细信息存储在我的postgres数据库中： class MySpider(scrapy.Spider): name = 'my_spider' def __init__(self): self.start_urls = ['http://www.example.com'] def parse(self, response): yield scrapy.request(self.start_urls[0], callback=self.parse

浏览 0提问于2016-04-12得票数 0

1回答

Scrapy + PostgreSQL -自定义ETL的自动项目和管道(截断>插入>插入>删除)

、、、

我已经有了一些实用的蜘蛛和代码来实现我想要的，但我正在寻找关于如何更有效地为我正在进行的项目整合事情的建议。我目前的程序包括： Scrapy中的scrapy.ItemWithin ：使用 Scrapy:爬行手动创建项目，将每个项目行输出到JSON (JL)文件 - Current Pipeline: #pipelines.py类MyPipeline(对象)：def process_item(self，item，spider)：item.fields中的字段:item.setdefault(字段，无)返回项使用Pandas to_sqlOutside Scrapy w/ SQL Alchem

浏览 6提问于2020-01-06得票数 1

回答已采纳

2回答

将刮伤爬虫结果插入postgresql时出现的卷曲括号问题

、、、

使用刮伤外壳时： scrapy shell “http://blogs.reuters.com/us/“ 并试图提取网址的标题： response.xpath('(//title/text())').extract() 我得到： [u’Analysis & Opinion | Reuters'] 当我运行我的爬虫时，我在postgresql数据库中得到以下信息： {“Analysis & Opinion | Reuters”} 我想要的是： Analysis & Opinion | Reuters 我怎样才能做到这一点？此外，这是我正在使用的管道

浏览 1提问于2014-10-27得票数 0

回答已采纳

1回答

为每个start_url更新mysql的Scrapy管道

、、

我有一个蜘蛛，它从一个start_urls数据库中读取MySQL，并从每个页面中抓取未知数量的链接。我想使用pipelines.py更新数据库中的刮掉的链接，但是我不知道如何将start_url返回到SQL语句的管道中。这是蜘蛛代码，它起作用。 import scrapy import MySQLdb import MySQLdb.cursors from scrapy.http.request import Request from youtubephase2.items import Youtubephase2Item class youtubephase2(scrapy.Spide

浏览 4提问于2017-04-13得票数 1

回答已采纳

2回答

从python脚本运行scrapy

、、、

我一直在尝试从python脚本文件运行scrapy，因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时 scrapy crawl argos 该脚本运行良好，但当我尝试使用脚本运行它时，请使用以下链接 http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script 我得到了这个错误 $ python pricewatch/pricewatch.py update Traceback (most recent call last): File "pricewatc

浏览 1提问于2014-05-10得票数 1