我正在尝试从这个page中抓取以下表单数据的内容:
我需要将County:
设置为George's,并将DateOfFilingFrom
设置为01-01-2000
,因此我执行以下操作:
% scrapy shell
In [1]: from scrapy.http import FormRequest
In [2]: request = FormRequest(url='https://registers.maryland.gov/RowNetWeb/Estates/frmEstateSearch2.aspx', formdata={'DateOfFilingFrom': '01-01-2000', 'County:': "Prince George's"})
In [3]: response
In [4]:
但是它不工作(响应是无)另外,下一个页面看起来像下面的动态加载,我需要知道如何能够访问下面显示的每个链接与以下检查(据我所知,这可能是使用Splash
完成的,但是,我不确定如何在FormRequest
中组合SplashRequest
,并从scrapy中进行测试。我需要知道我做错了什么,以及如何呈现下一个页面(如下所示的FormRequest
生成的页面)
发布于 2020-08-24 10:10:54
您发送的请求缺少几个字段,这可能是您得不到响应的原因。您填写的字段也与他们在请求中期望的字段不对应。解决这个问题的一个好方法是使用scrapy的from_response (doc),它可以根据表单中的信息为您填充一些字段。
对于这个网站,以下方法适用于我(使用scrapy shell):
>>> url = "https://registers.maryland.gov/RowNetWeb/Estates/frmEstateSearch2.aspx"
>>> fetch(url)
>>> from scrapy import FormRequest
>>> req = FormRequest.from_response(
... response,
... formxpath="//form[@id='form1']", # specify the form on the current page
... formdata={
... 'cboCountyId': '16', # the county you select is converted to a number
... 'DateOfFilingFrom': '01-01-2001',
... 'cboPartyType': 'Decedent',
... 'cmdSearch': 'Search'
... },
... clickdata={'type': 'submit'},
... )
>>> fetch(req)
https://stackoverflow.com/questions/63556512
复制