本软件工具仅限于学术交流使用,严格遵循相关法律法规,符合平台内容合法性,禁止用于任何商业用途!
小红书作为国内极具影响力的社区种草平台,汇聚海量用户且拥有极高的日活跃度,其笔记下方的评论区蕴含丰富的信息价值。在合法合规、遵循平台规则以及尊重用户隐私的前提下,对小红书评论数据进行合理采集分析,能够帮助企业深入了解消费者对商品和品牌的评价与反馈,从而更好地把握消费者喜好、需求以及购买意向。
基于这样的探索需求,我运用 Python 开发了一款数据采集辅助软件 ——【爬小红书搜索评论软件】 。这款软件严格按照平台公开的接口规范和数据使用政策进行设计开 发,确保数据采集行为的合法性与合规性。
软件支持两种合规的数据采集模式:
1.根据关键词采集评论:在遵循平台搜索规则和数据获取权限的基础上,通过合法输入笔记关键词,获取对应的笔记链接,进而从允许访问的笔记链接中提取评论信息 。 2.根据笔记链接采集评论:用户提供合法获取且平台允许分析的笔记链接,软件依此合规地获取相关评论数据。
用户可根据自身需求,在合法合规的前提下选择其中一种模式进行数据采集。
软件界面,如下:
在合法合规及遵守平台规则的前提下,展示符合数据使用范围的爬取结果示例:
爬取结果 1 - 笔记数据:
爬取结果 2 - 评论数据:
软件在合法合规操作流程下的运行演示:
几点重要说明,请详读了解:
软件全部模块采用 python 语言开发,主要分工如下:
• tkinter:GUI软件界面
• requests:通过合法合规的接口进行爬虫请求
• json:解析响应数据
• pandas:保存csv结果、数据清洗
• logging:日志记录,确保记录内容符合平台与法律规定
出于版权考虑,暂不公开源码,仅向用户提供软件使用。同时,确保软件使用过程严格遵循平台规则与相关法律法规。
开始采集前,需按照平台规定的合法方式获取并把自己的 cookie 值填入 cookie.txt 文件。
cookie 获取说明 1:
(确保获取方法符合平台规则)
爬取思路:在遵循平台规则下,通过合法输入笔记关键词 -> 获取平台允许访问的笔记链接 -> 提取允许采集的评论 先填写左上区在平台规则允许范围内的笔记筛选项,再填写右上区符合平台规定的评论筛选项,点击按钮 1 进行合规的数据采集。
爬取思路:使用合法获取且平台允许分析的笔记链接 -> 提取允许采集的评论 先填写中上区合法合规的笔记链接,再填写右上区符合平台规定的评论筛选项,点击按钮 2 进行合规的数据采集。
软件首发于微信公众号 “老男孩的平凡之路”,欢迎在合法合规的前提下交流!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。