首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

百家号爬取(1)

我爬取的是https://author.baidu.com/home?type=profile&action=profile&mthfr=box_share&context=%7B%22from%22%3A%22ugc_share%22%2C%22app_id%22%3A%221572595784300706%22%7D

因为他是json数据找到该json页面

https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g&ctime=15479957581253&num=14&_=1548039936244&callback=jsonp2

进行页面分析,主要内容有:

https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g

默认为当前时间10个内容

若想更改可:

https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g&ctime=15479954554890&num=14

特定时间特定内容数 表示时间为15479954554890(时间戳)内容数14

如想获得之前所有数据可取最后一个发布的时间戳进行yield再次循环处理

同时近两天发布为相对时间,可对其发布时间的时间戳进行转换

此页面评论数,阅读数尚未抓取到,可看下一篇

举报
领券