很多读者可能有这种习惯,吃瓜看微博,疑惑上知乎,那要是生活方式和消费决策,还得是小红书。
作为一个自媒体博主,我看到其他很多同行已经入驻了小红书,毕竟有流量红利,有吸引人和封面和标题就可能成为一个爆款,据说是小红书有对新人特别的友好的流量推荐机制,这引起了我的一番兴趣。
所以特此开新的爬虫系列,2023 小红书采集爬虫,包含关键词、评论、用户等部分。小红书的反爬难度是众所周知的,这颇费了一番心力。
首先我需要分析一些特定关键词搜索出来的帖子数据,比如 #Python#、#数据分析# 等等,看看爆款的标题是怎么取的,转发评论点赞数据有怎样的表现等等。
由于小红书的搜索系统只能查看最近几页数据,笔者写了一个这样的数据采集和监控的线上系统,它可以在一定时间周期内定时采集指定关键词的帖子数据,全部为网页公开数据,无任何隐私数据。
抓取的字段包括但不限于帖子链接、标题、封面图、点赞数、评论数和收藏数等等,希望我早日精确分析出小红书的推荐机制,成为流量专家(手动狗头)。
系统稳定运行一周有余,前端展示地址在
https://data-monitor.buyixiao.xyz/xhs-keyword-monitor