我使用Python和Scrapy来回答这个问题。
我试图抓取网页A,它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接,C1、C2、C3、.,其中包含一个图像。
所以,使用Scrapy,在伪代码中的思想是:
links = getlinks(A)
for link in links:
B = getpage(link)
C = getpage(B)
image = getimage(C)
然而,当我试图在Scrapy中解析多个页面时,我遇到了一个问题。这是我的代码:
def parse(self, response):
我正在尝试使用Python中的Scrapy在一些航班上运行航班搜索,然后将其导出为csv。这只是为了好玩,因为我对Scrapy有了更多的了解。
这是我所拥有的
from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spider import Spider
class DeltaItem(Item):
title = Field()
link = Field()
desc = Field()
class DmozSpider(Spide
我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格:
import scrapy
class PeopleSpider(scrapy.Spider):
name="People"
start_urls=[
'http://canada411.yellowpages.ca/search/si/1/519-896-7080/',
]
def parse(self,response):
for people in response.css("div.person-search__table--row"):
yield
因为我是python的新手,所以我需要你的帮助。我需要从一个网站的所有链接爬行数据。我使用meta进入链接并获取数据。当我使用我的代码时,我只能从一个链接获得。
import scrapy
from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
import urlparse
from alibaba.items import AlibabaItem
import mysql.connector
from mysql.connector import conversion
import re
我在“抓取”中写了一只蜘蛛,它基本上做得很好,做的正是它应该做的。但是当我执行抓取爬行时,问题就在日志中。
# -*- coding: utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from ecommerce.items import ArticleItem
class WikiSp
作为新用户,我设法使一个蜘蛛可以轻而易举的电子商务网站,提取标题和每个产品的变化和输出CSV文件和产品线,但我会希望这是一个由行的变化,请有人能帮助我在我的项目前进。
我期待着回答这个问题,但不幸的是我找不到答案。
我的蜘蛛:
import scrapy
from w3lib.html import remove_tags
from products_crawler.items import ProductItem
class DemostoreSpider(scrapy.Spider):
name = "demostore"
allowed_domains
我在学刮痕,试着爬www.google.com/.*。我编写了下面的蜘蛛程序,但它仍然访问像support.google.com这样的子域。我遗漏了什么?
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class GoogleSpider(CrawlSpider):
name = 'google'
allowed_domains = ['www.google.com']
我有一个带有iframe的应用程序,指向我的一个网站。
我想通过news.reads操作进行最简单的发布。
我得到了下一个错误:
Fatal error: Uncaught OAuthException: (#3502) Object at URL http://fb.raal.co.il/ has og:type of 'website'. The property 'article' requires an object of og:type 'article'. thrown in /home1/raalcoil/public_html/f
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL数据库中看到爬行的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时,新的爬行开始于抓取步骤,并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。
我尝试检查隐藏的种子文件,但没有找到,并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
我被指派使用python和scrapy创建一个爬虫来获取特定酒店的评论。我阅读了相当多的教程和指南,但我的代码仍然生成一个空的CSV文件。 Item.py import scrapy
class AgodaItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
StarRating = scrapy.Field()
Title = scrapy.Field()
Comments = scrapy.Field() Agoda_rev
我刚刚开始使用Scrapy:下面是一个我想爬的网站的例子:
我的蜘蛛密码:
from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from dic_crawler.items import DicCrawlerItem
from urlBuilder import *
class Dic_crawler(BaseSpider):
name = "dic"
allowed_dom
总的来说,我对抓取和巨蟒非常陌生,但我真的很想学习,我已经付出了很大的努力!我试图抓取eb5info.com,选择每个地区中心,并复制电话号码和电子邮件从每一个。然而,当我爬它通知我,0网站被抓取。任何帮助都是非常感谢的!
这是我的蜘蛛
from scrapy.item import Item, Field
class Eb5Item(Item):
description = Field()
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import
我在试着做一个抓痕很宽的爬行。我们的目标是在不同的域上有许多并发的爬行,但同时在每个域上缓慢地爬行。因此能够保持良好的爬行速度并保持每个url上的请求频率较低。
下面是我使用的爬虫:
import re
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from myproject.items import MyprojectItem
class testSpider(CrawlS