给出你的标准scrapy应用程序:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
我有一个Python和Scrapy的问题,我使脚本仍然有效,并将所有的数据放在MongoDB上,但当他抓取时,他仍然只在数据库中拍摄照片,但我想以此结构下载/项目/照片/链接页面/名称.jpg
这里有我的代码!这是Itmes.py
import scrapy
from PIL import Image
class RedditItem(scrapy.Item):
'''
Defining the storage containers for the data we
plan to scrape
'''
Spider运行正常,并将数据保存在mongodb中,但突然开始在数据库、json和csv中保存重复的值,我删除了下载图像的代码,它工作得很好,但我需要图像,有人能帮我吗?提前谢谢。
items.py
导入scrapy
class BucketItem(scrapy.Item):
# define the fields for your item here like:
store_name = scrapy.Field()
category = scrapy.Field()
sub_category = scrapy.Field()
name = scrapy.Field()
unit = s
所以我在玩Scrapy,它是一组类,允许你进行web抓取,我想把一些数据放到数据库中,但我让truble在扩展scrapy库的同时导入MySQL方法。
下面是我的代码:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import Request
import MySQLdb
class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc
好的,要保持这一点,需要赶着去开会
我正试图在抓取的开始urls,无论我如何尝试,我似乎无法完成它。这是我的代码(蜘蛛)。
import scrapy
import csv
from scrapycrawler.items import DmozItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.selector import Selector
from scrapy.
我正在尝试将scrapy作为python脚本运行,并希望处理被刮掉的数据,而不是存储在文件/数据库中。代码看起来就像
import scrapy
import scrapy.crawler as crawler
from scrapy.utils.log import configure_logging
from multiprocessing import Process, Queue
from twisted.internet import reactor
# spider
class QuotesSpider(scrapy.Spider):
name = "quotes
有人能帮我解决这个问题吗?我是scrapy/python的新手。我似乎无法阻止重复数据被插入到数据库中。例如。如果我的数据库中有马自达4000美元的价格。如果'car‘已经存在或者'price with car’存在,我不希望爬虫再次插入爬行数据。
price | car
-------------
$4000 | Mazda <----
$3000 | Mazda 3 <----
$4000 | BMW
$4000 | Mazda 3 <---- I also dont want to have two results like this
$4000
我是python scrapy的新手。我已经做了一些教程,我已经能够将数据发送到mongodb,但它没有在自己的简单项目中工作,即获取api并将比特币价格输入到mongodatabase中。我的scrapy项目如下:
bitscrape/spiders/__init__.py
# This package will contain the spiders of your Scrapy project
#
# Please refer to the documentation for information on how to create and manage
# your spiders.
修复了它
对于一个教育项目,我试图将刮过的数据存储在MS数据库上。首先,我希望每一个独特的项目都放在products_tb中。插入唯一产品后,SQL必须为所述项生成唯一ID,即productgroupid。products_tb表只生成不会更改的产品信息,如productid, category, name and description。在第二个表中,我将在完成这项工作后创建该表,我将存储以下数据:productgroupid, price, timestamp。这样做的原因是,这些情况可能会不时发生变化。使用productgroupid,我可以在任何给定的时间对所有数据进行分组,并创建图表
我正在尝试将网站源代码保存到我的MySQL数据库中。使用urllib成功检索到源文件。下一步,保存数据。与数据库的连接没有问题,问题出在源代码的保存上,因为当我从insert语句中删除源代码时,一切都很正常。
# get the webpage source
f = urllib.urlopen(row_urls['url'])
source_fetched = f.read()
f.close()
# Save the webpage source
scrapy_url_id = row_urls['id']
我创建了一个简单的scrapy项目,它可以抓取网页并将数据保存到postgresql中。我可以在我的解析方法中获取所有被刮过的数据,但是不调用pipline将数据保存到数据库中。这是我的蜘蛛解析方法。
def parse(self, response):
links = response.css('a::attr(href)').getall()
if links is not None:
for link in links:
yield response.follow(link,