暂无搜索历史
写这篇文章之前,我翻了翻旧项目仓库,看到那些“能跑就行”的代码片段,突然有点怀旧。 它们简单粗暴、没啥技巧,但却是我们整个执行环境管理体系的起点。
Playwright 亿牛云代理IP 固定 User-Agent等 定时任务,每 10 分钟跑一轮
如果说过去的爬虫架构像一辆固定路线的公交车,那么 Serverless 的出现,让开发者突然拥有了“随叫随到的无人驾驶出租车”。 不需要长时间维护服务器,不需...
如果你只做实时抓取,你只能看“现在发生了什么”。 但如果你能做到版本化抓取 + 可全文搜索,意义瞬间升级:
本文就想把这件事说清楚:从痛点、到原理、到工程化方案,再到可运行的示例代码。你会看到一个完整的闭环系统,告诉你如何让每天早上 8 点去抓“中国政府采购网”公告,...
只要你刚接触异步程序,就一定听过一句话:“协程越多越快”。 很遗憾,这句话通常只有前半句是真的。等你真正跑起来,就会发现一个非常扎心的现实:
要是在普通场景里做抓取,Redis、Kafka、Celery 各用各的,互不干涉也能“跑起来”。 但一旦换成 金融级的实时 Tick 数据抓取(纳斯达克逐笔数...
好不容易把一个站点的结构理清楚,整理了好几行 XPath 或 CSS Selector,终于把标题、评分、评论都抽出来了。 但没高兴几天,网页改版了。
很多人第一次听到“抓取”两个字,脑海里往往跳出一只在网页上爬来爬去的虫子。其实它并没有那么玄乎,它更像是一个非常勤奋的小助理:
AI 现在能自动生成采集代码,这件事乍一听挺让人兴奋。只要丢给它一句“帮我写个采集程序”,马上就能得到一段看似专业的代码。但当我真正拿这些代码去跑实验时,心情就...
如果你做过科研、写过文献综述,或者只是帮同事找过一篇论文,你大概率体验过这种心情:
01|事情是这样开始的:凌晨,我被电话吵醒了有些项目真的是越做越清醒,尤其是那种能把人从睡梦里叫醒的。几个月前,我们负责的某个政府采购网站上线了新版页面结构。按...
“能不能把小红书上跟这 20 个品牌相关的帖子和评论都抓一下?我们要看下这段时间的舆情走势。”
做分布式采集这几年,我越来越确信一件事:真正决定一个采集系统能不能跑得稳、跑得久、跑得快的,从来不是抓取逻辑,而是调度层。 是的,写采集的人最后都会发现:爬得...
“帮我把这个页面的标题、时间、正文抓出来。” “又改版了,再修一下 XPath 吧。” “嗯?这个栏目怎么又换模板了?”
如果你做浏览器采集做得久了,大概率经历过跟我一样的阶段:从纯请求库 → Puppeteer → 对抗反爬 → 疯狂踩坑 → 架构越来越难维护。
有一段时间,我在做一个多站点的网页采集项目。目标看起来挺简单的:同时运行一批 Playwright 实例去抓取数据。 但一开始,我只开了二十几个浏览器,机器就...
如果你玩过抓取,大概率都经历过这个阶段: 一开始写个 Playwright 脚本,点两下、滚一滚、打印个标题,觉得「真香」; 但当要跑几百个任务、几千个页面...
很多人做采集做到中后期,都会遇到一个绕不开的问题——“多用户共用平台怎么隔离权限?”
大家好,今天想聊一个我最近做的项目:抓取金融舆情,然后用情绪分析模型做情感判断。 说白了,就是想知道——市场到底“乐观”还是“恐慌”,在大盘波动前有没有蛛丝马...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市