众所周知,小红书是国内流量数一数二的社区种草平台,拥有海量用户和上亿日活,尤其笔记下方的评论区有重大挖掘价值。采集小红书评论数据可以帮助客户了解消费者对商品和品牌的评价和反馈,从而更好地洞悉消费者的喜好、需求和购买意向。
基于此,我用python开发了一个爬虫采集软件,叫【爬小红书搜索评论软件】,支持2种模式的评论采集:
可按需选择其中一种模式,进行评论采集。
软件界面,如下:
软件运行界面
爬取结果1-笔记数据:
爬取结果2-评论数据:
软件运行演示:公号原文
几点重要说明,请详读了解:
1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
2. 软件通过接口协议爬取,并非通过模拟浏览器等RPA类工具,稳定性较高!
3. 先在cookie.txt中填入自己的cookie值,方便重复使用(内附cookie获取方法)
4. 支持按笔记类型(综合/视频/图文)和排序方式(综合/最新/最热)爬取
5. 支持多个的设置项有:笔记关键词、笔记链接、评论关键词、IP属地
6. 每个关键词最多可采集220条笔记,与网页端搜索数量一致
7. 爬取过程中,每爬一页,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每条间隔1~2s)
8. 爬取过程中,有log文件详细记录运行过程,方便回溯
9. 爬取过程中,评论筛选同时进行。并非全部评论爬完再一次性筛选!所以效率较高!
10. 笔记csv含10个字段,有:关键词,页码,笔记id,笔记链接,笔记标题,笔记类型,点赞数,用户id,用户主页链接,用户昵称。
11. 评论csv含10个字段,有:笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。
以上。
软件全部模块采用python语言开发,主要分工如下:
tkinter:GUI软件界面
requests:爬虫请求
json:解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录
出于版权考虑,暂不公开源码,仅向用户提供软件使用。
开始采集前,先把自己的cookie值填入cookie.txt文件。
cookie获取说明1:
爬取思路:笔记关键词->笔记链接->评论
先填写左上区的笔记筛选项,再填写右上区的评论筛选项,点击按钮1爬取。
爬取思路:笔记链接->评论
先填写中上区的笔记链接,再填写右上区的评论筛选项,点击按钮2爬取。
付费如下:
日卡:使用期限1天,29元。日卡仅能购买一次。适合试用等临时需求
月卡:使用期限1个月,149元。月卡可多次购买。适合短期采集需求
季卡:使用期限3个月,399元。季卡可多次购买。适合中期采集需求
年卡:使用期限1年,1499元。年卡可多次购买。适合长期采集需求
暂不支持自动化付费,直接与我对接即可。
软件采用一机一码机制,一个卡密只能在一台电脑运行、不可多电脑运行。
一台电脑仅允许运行一个软件,不支持软件多开。
我是@马哥python说 ,一名10年程序猿,欢迎交流!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。