发布

月小水长

专栏成员
148
文章
197990
阅读量
36
订阅数
采集《射雕英雄传侠之大者》抖音预告片 8w 条评论,雇佣 DeepSeek 和 Kimi 分析总结
毫不夸张地说,金庸武侠是整个华语世界最大的 ip,《射雕英雄传》都翻拍过多少次了,依旧长盛不衰。
月小水长
2025-02-03
1310
采集小红书上的 Tiktok Refugee 笔记数据
由于迫近美国对 Tiktok 美区封杀政策的最后期限,前几天大批的 Tiktok 用户涌入小红书 RedNote,并自称 Tiktok Refugees;
月小水长
2025-01-22
1130
构建 2024 美国总统大选推特 X 文本数据集,生成复杂网络和动态主题建模
虽然美国 2024 年总统大选已经是去年的事了,但是现在看来还是很振奋人心,抛开别的不说,一个 80 岁的美国 MAGA 老头冒着生命危险求职,就很励志。
月小水长
2025-01-18
1060
六度分隔理论实证 | 用腾讯云做了一个网站,可视化任意名人之间的多跳可达性关系路径
1、CBDB | 可视化历史名人的关系和足迹,https://cloud.tencent.com/developer/article/2275249
月小水长
2025-01-08
1380
智能结构化助力在大规模突发事件背景下社交媒体图片中时间、地点等关键信息的有效提取
在大规模社会性突发事件背景下,由于传播渠道有限和实时性要求,处于困境中的个人往往会在公开社交媒体上发布求助信息;
月小水长
2025-01-07
3940
如何用大数据可视化实证:明朝江西填湖广
江西填湖广,指的是明朝由江西到湖广地区(湖南、湖北)这一大规模的移民活动,起因是湖广地区是红巾军与元朝军队以及朱元璋—陈友谅厮杀拉锯的主要战场,导致该地区人口凋敝、田畴荒芜,大量江西移民进入,这也是如今很多湖南、湖北人自称江西老表的原因。
月小水长
2025-01-04
790
Ubuntu 使用 Acme.sh 全自动申请 Let's Encrypt 免费证书,过期前自动续签
为了减少攻击者的窗口期,提高证书的安全性,顶级的证书颁发机构把免费 SSL 证书的有效期从一年调整成了三个月,意味着人工成本扩大了四倍,更何况还有多个二级域名,广大站长深受其害。
月小水长
2024-12-31
1540
为什么说每个爬虫工程师都要掌握 retry 装饰器
今天介绍一个实用的 python 库:retrying,它通过装饰器方法 retry 抽象出业务无关的重试机制实现,可以快速引入我们的工程中提高代码的健壮性和鲁棒性。
月小水长
2024-12-23
1140
工程实践善用简单算法,事半功倍。
在工程实践中,很多时候写的是纷繁复杂的业务逻辑, 在需求急排期短的时候,来不及多想一下,这个需求还有没有更优的解决方案?就匆匆写完仅仅能够完成需求的代码测试通过就上线了
月小水长
2024-12-17
1160
定量分析通过苏轼最多能联系到多少人?
但是随着流量潮水逐渐褪去,我开始有这样一个疑问,能不能定量分析下,通过苏轼,到底能联系起来多少位人物?
月小水长
2024-08-08
920
推特(X) 关于 ChatGPT 话题的高质量推文数据集
自从 2023 年推特被火星人马斯克先生收购并进行全面商业化之后,推特 API 的费用就水涨船高了。
月小水长
2024-02-22
2794
逢年过节,酒店价格到底涨了多少
酒店,字面意思就是喝酒的地方,早先时候大部分去酒店的人确实是去喝酒的,但是喝醉了就得休息,于是酒店就有了住宿的功能。
月小水长
2024-02-22
1550
Python 源代码 | 2024 版抖音评论采集爬虫
当时的重点只是讲 hook 这种方法,并不是采集抖音评论,有点为了这瓶醋包了这碗饺子的意思在里面。
月小水长
2024-01-12
5.7K7
源代码和软件 | 采集 1w+ B 站视频评论(年底更新版)
转眼又到年关,不知不觉距离 2023 bilibili 视频评论爬虫 发布已经过去 6 个月了,当时一并分享了 python 3 源代码和 windows 打包软件,收到了不少反馈。
月小水长
2023-12-30
4563
源代码和软件 | 采集 1w+ B 站视频评论(年底更新版)
转眼又到年关,不知不觉距离 2023 bilibili 视频评论爬虫 发布已经过去 6 个月了,当时一并分享了 python 3 源代码和 windows 打包软件,收到了不少反馈。
月小水长
2023-12-30
7191
Streamlit 自定义跑马灯组件
近来需要在 streamlit 项目实现跑马灯效果,但是没有现成组件。于是自定义实现了这个组件,并且发布到了 pypi 。
月小水长
2023-11-17
3060
使用 AdaBoost 提升微博 Spammer 识别模型准确率至 95%
但是这样识别时候要先抓取微博账号的 profile 页信息、关系网络、微博文本等等信息,至少需花费上百秒,无法做到实时识别。
月小水长
2023-11-03
2650
数据分析利器 pandas 系列教程(六):合并上百万个 csv 文件,如何提速上百倍
过完基础知识以后就是实战 tricks 的集锦,这些都是笔者在实际工作中用到的解决方案,求小而精,抛砖引玉。
月小水长
2023-11-03
5850
更准更快的微博 Spammer 水军账号检测模型,支持 API 调用
当时耗费数周,手动标注了数 K 条微博账号数据集,正负样本 1:1,构建识别模型,准确度在 85% 左右。
月小水长
2023-10-26
6470
采集分析马斯克发布的 3w 条推特(X),输入大模型询问马斯克对比亚迪的评价
编写 Python 3 爬虫采集了马斯克发布过的所有推特,时间是 2013.1.1 至 2023.10.8 ,一共 26844 条 ,CSV 包含推文时间、内容、点赞数、评论数、引用数、转推数、经纬度、回复人等 30 余字段。
月小水长
2023-10-23
3550
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档