首页
学习
活动
专区
圈层
工具
发布
首页标签python爬虫

#python爬虫

稳定性不是零错误,而是可预期

jackcode

但如果你真的做过企业级的数据系统,尤其是金融、舆情这类系统,就会慢慢意识到一件事:

500

Crawl4AI Docker 容器化部署指南

轩辕镜像

Crawl4AI 是一款开源的LLM友好型网络爬虫和抓取工具,专为LLMs(大型语言模型)、AI代理和数据管道设计。作为GitHub上的热门项目,Crawl4A...

12610

网络开始替你做决定,这事真的有点不对劲

jackcode

5910

python爬虫集群部署

用户11754185

今天讲述Python框架源码专题最后一个部分,爬虫集群部署,前面更新了十五个从零开始学python的系列文章,分别是: 1.编程语法必修篇 2.网络编程篇 3....

12410

任务队列明明在跑,为什么整体速度却越来越慢

jackcode

任务队列越堆越多, Worker 明明在跑, 机器资源看着也不紧张, 可就是——慢得离谱。

7610

当数据开始“感知页面”

jackcode

Playwright 亿牛云代理IP 固定 User-Agent等 定时任务,每 10 分钟跑一轮

13810

Serverless+Playwright的组合值得用吗?我们做了个测试

jackcode

如果说过去的爬虫架构像一辆固定路线的公交车,那么 Serverless 的出现,让开发者突然拥有了“随叫随到的无人驾驶出租车”。 不需要长时间维护服务器,不需...

10600

Python 多线程爬取社交媒体品牌反馈数据

小白学大数据

在社交媒体时代,品牌反馈数据是企业洞察用户需求、优化产品服务的核心资产。单线程爬虫在面对海量社交媒体数据时,往往因网络延迟、IO 等待导致效率低下,而多线程技术...

13110

为什么你的去重总是失效?真正的问题其实在“竞态”

jackcode

本文就想把这件事说清楚:从痛点、到原理、到工程化方案,再到可运行的示例代码。你会看到一个完整的闭环系统,告诉你如何让每天早上 8 点去抓“中国政府采购网”公告,...

10710

从10个协程到1000个协程:性能下降的背后究竟发生了什么?

jackcode

只要你刚接触异步程序,就一定听过一句话:“协程越多越快”。 很遗憾,这句话通常只有前半句是真的。等你真正跑起来,就会发现一个非常扎心的现实:

12210

【爬虫软件】用python开发的批量采集微博帖子下的评论

马哥天才3218

大家好,今天给大家介绍一款我原创开发的微博评论采集工具。这款工具能够帮助我们从微博平台上批量采集评论数据,对于社会学和传播学的研究具有重要价值。

16110

强一致性时代,Kafka、Redis、Celery 谁才是那块短板

jackcode

要是在普通场景里做抓取,Redis、Kafka、Celery 各用各的,互不干涉也能“跑起来”。 但一旦换成 金融级的实时 Tick 数据抓取(纳斯达克逐笔数...

17710

AI 为什么能比你更懂网页?一次关于“语义抽取”的实战实验

jackcode

好不容易把一个站点的结构理清楚,整理了好几行 XPath 或 CSS Selector,终于把标题、评分、评论都抽出来了。 但没高兴几天,网页改版了。

12310

不是简单搜索,而是理解:让获取的论文会“语义对话”

jackcode

如果你做过科研、写过文献综述,或者只是帮同事找过一篇论文,你大概率体验过这种心情:

13210

从网页到结构化数据,只需要一个 Prompt:LLM 解析器实战

jackcode

“帮我把这个页面的标题、时间、正文抓出来。” “又改版了,再修一下 XPath 吧。” “嗯?这个栏目怎么又换模板了?”

15010

容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机

jackcode

有一段时间,我在做一个多站点的网页采集项目。目标看起来挺简单的:同时运行一批 Playwright 实例去抓取数据。 但一开始,我只开了二十几个浏览器,机器就...

17710
领券