嗨,我下面有这段代码(我删除了很多if循环,并将其简化为易于理解)。problem是这个刮伤,擦伤只是网站的第一页。我发现hte scrapy.request并没有得到新的url,并且在项目‘url’中总是只有基url被追加并因此下载。
import scrapy
from collections import Counter
from scrapy.selector import Selector
from Mycode.items import *
class ExampleSpider(scrapy.Spider):
name = "full_sites"
我一直试图让Scrapy的链接提取器工作,但没有结果。我想要它找到任何链接,然后调用一个不同的方法,它只是打印出一些东西,以表明它是有效的。
这是我的蜘蛛
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
class TestSpider(CrawlSpider):
name = 'spi'
allowed_domains = ['https://www.reddit.com/']
start_url
我想刮刮所有的名字从一个网站的使用Scrapy。
这是在项目文件中。
import scrapy
class ItwItem(scrapy.Item):
name = scrapy.Field()
这是我的蜘蛛。
import scrapy
from itw.items import ItwItem
class ItwSpider(scrapy.Spider):
name = 'itw'
allowed_domains = ['https://www.internationaltelecomsweek.com']
我是新来Scrapy的。我为这个网站写了我的第一个爬虫,它工作得很好。
import scrapy
class BookSpider(scrapy.Spider):
name = 'book24'
start_urls = ['https://book24.ru/knigi-bestsellery/']
def parse(self, response):
for link in response.css('div.product-card__image-holder a::attr(href)'):
我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以,我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。
谢谢,
Code-categorization.py
from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from s
下面是我的代码-
import scrapy
from scrapy.http import Request
class lyricsFetch(scrapy.Spider):
name = "lyricsFetch"
allowed_domains = ["metrolyrics.com"]
print "\nEnter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if p
我是Scrapy的新手,所以请原谅这个愚蠢的问题。 import scrapy
from bs4 import BeautifulSoup
from scrapy_proj.scrapy_proj.items import PageSourceLoc, ItemField
from scrapy.loader import ItemLoader
from scrapy.http.response import Response
from scrapy import Selector
class MySpider(scrapy.Spider):
name = 'websou
我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画,以便在AWS Lambda中启动。
我在Stackoverflow中看了钩针库的解决方案,但它对我不起作用。
链接:
代码如下:
import scrapy
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
# From response in Stackoverflow: https://st
我一直在尝试从美食网络抓取菜谱标题,我想递归地移动到下一页。我使用的是python 3,所以scrapy中的一些函数对我来说是不可用的,但这是我到目前为止所拥有的:
import scrapy
from scrapy.http import Request
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.selector
我需要一点关于Scrapy的帮助和你的指导。我的Start_Url是::已经粘贴了下面的代码,它能够获得链接/路径,直到下面的url。但不能超越这一点。我需要转到每个产品的页面,在下面的路径下列出。在"productsinfamily“页面中列出了特定的产品(可能在一个java脚本中)。我的爬虫无法访问这些单独的产品页面。
下面是爬虫蜘蛛的代码-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class Produ
我想用刮伤来抓取完整的网站,但是现在它唯一的爬行单页。
import scrapy
from scrapy.http import HtmlResponse
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.exporter import JsonItemExporter
cla
我是Scrapy和python的新手。我花了几个小时尝试调试并寻找有用的响应,但我仍然卡住了。我正在尝试从www.pro- from reference.com中提取数据。这是我现在拥有的代码
import scrapy
from nfl_predictor.items import NflPredictorItem
class NflSpider(scrapy.Spider):
name = "nfl2"
allowed_domains = ["http://www.pro-football-reference.com/"]
start_