我之所以使用splash,是因为carousel是由javascript创建的,而常规的请求和解析不会在html中显示它。我的问题是,我没有得到任何数据到我的‘项目’字典。import scrapy name =我已经按照下面的描述填写了设置文件:
好了,通过如下设置cookie,我已经能够让Splash的本地主
我使用的是Scrapy-splash,我的内存有问题。我可以清楚地看到,docker python3使用的内存在逐渐增加,直到PC冻结。因此,有一个方法可以将maxrss设置为一些合理的值。当RAM使用有此值时,将重新启动停靠器,以便刷新RAM。
但问题是,当docker关闭时,scrapy继续发送请求,因此有几个urls没有被刮掉。Retry中间件正在尝试重试这些请求,然后放弃。[scrapy.downloadermiddlewares.retry] DEBUG: R