首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Scrapy增量抓取网站

使用Scrapy增量抓取网站
EN

Stack Overflow用户
提问于 2016-05-18 05:24:40
回答 3查看 1.1K关注 0票数 3

我是个爬虫新手,我想知道是否可以使用Scrapy来增量地爬行一个站点,比如CNBC.com?例如,如果今天我抓取了一个网站的所有页面,那么从明天开始,我只想收集新发布到这个网站上的页面,以避免抓取所有旧页面。

感谢您提供的任何信息。或对此进行输入。

EN

回答 3

Stack Overflow用户

发布于 2016-05-19 03:13:49

是的,你可以这样做,而且它实际上非常简单。每个新闻网站都有一些非常重要的索引页面,比如主页和分类(如政治、娱乐等)。没有一篇文章是在至少几分钟内不浏览这些页面的。每隔一分钟左右扫描一次这些页面,只保存链接。然后对数据库中已有的内容进行比较,每天执行几次爬虫来抓取所有缺失的链接。非常标准的做法。

票数 1
EN

Stack Overflow用户

发布于 2017-07-20 17:05:57

请尝试使用scrapy插件scrapy-deltafetch,它会让你的生活更轻松。

票数 1
EN

Stack Overflow用户

发布于 2016-05-18 05:31:14

简短的回答是:不。

更长的答案:您可以做的是将文章id或文章url写到一个文件中,在抓取过程中,您将把id或url与文件中的记录进行匹配。

记住只加载一次文件,并将其分配给一个变量。在抓取时,不要在迭代过程中加载它。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37286480

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档