我是个爬虫新手,我想知道是否可以使用Scrapy来增量地爬行一个站点,比如CNBC.com?例如,如果今天我抓取了一个网站的所有页面,那么从明天开始,我只想收集新发布到这个网站上的页面,以避免抓取所有旧页面。
感谢您提供的任何信息。或对此进行输入。
发布于 2016-05-19 03:13:49
是的,你可以这样做,而且它实际上非常简单。每个新闻网站都有一些非常重要的索引页面,比如主页和分类(如政治、娱乐等)。没有一篇文章是在至少几分钟内不浏览这些页面的。每隔一分钟左右扫描一次这些页面,只保存链接。然后对数据库中已有的内容进行比较,每天执行几次爬虫来抓取所有缺失的链接。非常标准的做法。
发布于 2017-07-20 17:05:57
请尝试使用scrapy插件scrapy-deltafetch,它会让你的生活更轻松。
发布于 2016-05-18 05:31:14
简短的回答是:不。
更长的答案:您可以做的是将文章id或文章url写到一个文件中,在抓取过程中,您将把id或url与文件中的记录进行匹配。
记住只加载一次文件,并将其分配给一个变量。在抓取时,不要在迭代过程中加载它。
https://stackoverflow.com/questions/37286480
复制相似问题