我是Scrapy的新手,我正在寻找一种从Python脚本运行它的方法。我找到了两个来源来解释这一点:
# This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy commandat the top before other imports
f
我已经实现了我自己的函数,用于排除包含某些单词的urls。然而,当我在我的parse方法中调用它时,Scrapy告诉我该函数没有定义,尽管它已经定义了。我没有使用规则对象,因为我从api中获得了我想要抓取的Urls。下面是我的设置: class IbmSpiderSpider(scrapy.Spider
我试图从消息队列中抓取一个URL,然后刮掉那个URL。我让循环进行得很好,并从队列中获取url,但是一旦它有了URL,它就永远不会进入parse()方法,它只是继续循环(尽管我已经从队列中删除了它.)当它在终端中运行时,如果我CTRL+C并强制它结束,它将进入parse()方法并爬行页面,然后结束。我不知道这里出了什么问题。class my_Spider(Spider):
name = "m