from scrapy_selenium import SeleniumRequestfrom selenium import webdriver} documentation on scrapy-selenium我已经一步一步地遵循了说明,但是驱动程序没有遵循任何链接。我相信这两个请求都是由scrapy处理的
问题是它总是从第一个url ("")抓取,而不是遵循我给它的url。为什么下面的代码不能从我在reqeusts中传递的新urls中抓取?我没主意了.from scrapy.http.request import Requestfrom selenium.webdriver.common.byimport By
from selenium.webdriver.support i
您好,我没有太多的经验在网络抓取或使用抓取和硒。如果我的代码中有太多糟糕的做法,请先道歉。我的代码背景简介:我尝试使用scrapy从多个网站抓取产品信息,我还使用selenium,因为我需要单击网页上的“查看更多”按钮和“不谢谢”按钮。由于网站上有不同类别的href,我也需要请求那些“子链接”,以确保我不会错过根页面上没有显示的任何项目。问题是,我注意到在这个for循环for l in product_links:中,scrapy和selenium的行为似乎很奇怪。from webScr
我可以让Chromedriver加载我想要的基本Selenium程序的页面,但是关于第二个项目(使用Scrapy)的一些内容阻止了它加载URL。相反,它只能在地址栏中显示数据:、。/chromedriver")第二个项目(不加载页面):from scrapy_selenium importchromedriver")
d
问题是,我能够与"sortby“选项交互,并使用Selenium选择”最近“,并使用Scrapy为第一页抓取数据。但是,我无法提取其他页面的数据,Selenium Web驱动程序不知何故不呈现下一页。代码片段附在这里(一些信息由于机密性而被删除)import selenium.webdriver as webdriverfrom