首页
学习
活动
专区
圈层
工具
发布
首页标签python爬虫

#python爬虫

并发控制的下一步:让系统自己决定速度

jackcode

我们会在配置文件里写下一个数字,比如 10、20、50,然后根据服务器配置或“经验”进行微调。这个阶段的并发模型有几个典型特征:

2400

一次架构调整,让人工介入减少了一半

jackcode

一开始一切都很顺利,requests 一跑,数据就回来了。 后来目标站点开始限速,你加了代理。 再后来,403、429、超时轮番出现,报警开始刷屏。

5710

Temu 商品历史价格趋势爬虫与分析

小白学大数据

在电商消费场景中,商品价格的波动规律是消费者决策、商家定价策略优化的重要依据。Temu 作为跨境电商平台的代表,其商品价格常因促销、供应链调整、节日活动等因素发...

14310

稳定性不是零错误,而是可预期

jackcode

但如果你真的做过企业级的数据系统,尤其是金融、舆情这类系统,就会慢慢意识到一件事:

8410

Crawl4AI Docker 容器化部署指南

轩辕镜像

Crawl4AI 是一款开源的LLM友好型网络爬虫和抓取工具,专为LLMs(大型语言模型)、AI代理和数据管道设计。作为GitHub上的热门项目,Crawl4A...

15010

网络开始替你做决定,这事真的有点不对劲

jackcode

6310

python爬虫集群部署

用户11754185

今天讲述Python框架源码专题最后一个部分,爬虫集群部署,前面更新了十五个从零开始学python的系列文章,分别是: 1.编程语法必修篇 2.网络编程篇 3....

12710

任务队列明明在跑,为什么整体速度却越来越慢

jackcode

任务队列越堆越多, Worker 明明在跑, 机器资源看着也不紧张, 可就是——慢得离谱。

8310

当数据开始“感知页面”

jackcode

Playwright 亿牛云代理IP 固定 User-Agent等 定时任务,每 10 分钟跑一轮

14210

Serverless+Playwright的组合值得用吗?我们做了个测试

jackcode

如果说过去的爬虫架构像一辆固定路线的公交车,那么 Serverless 的出现,让开发者突然拥有了“随叫随到的无人驾驶出租车”。 不需要长时间维护服务器,不需...

11400

Python 多线程爬取社交媒体品牌反馈数据

小白学大数据

在社交媒体时代,品牌反馈数据是企业洞察用户需求、优化产品服务的核心资产。单线程爬虫在面对海量社交媒体数据时,往往因网络延迟、IO 等待导致效率低下,而多线程技术...

14210

为什么你的去重总是失效?真正的问题其实在“竞态”

jackcode

本文就想把这件事说清楚:从痛点、到原理、到工程化方案,再到可运行的示例代码。你会看到一个完整的闭环系统,告诉你如何让每天早上 8 点去抓“中国政府采购网”公告,...

12010

从10个协程到1000个协程:性能下降的背后究竟发生了什么?

jackcode

只要你刚接触异步程序,就一定听过一句话:“协程越多越快”。 很遗憾,这句话通常只有前半句是真的。等你真正跑起来,就会发现一个非常扎心的现实:

12510

【爬虫软件】用python开发的批量采集微博帖子下的评论

马哥天才3218

大家好,今天给大家介绍一款我原创开发的微博评论采集工具。这款工具能够帮助我们从微博平台上批量采集评论数据,对于社会学和传播学的研究具有重要价值。

17410

强一致性时代,Kafka、Redis、Celery 谁才是那块短板

jackcode

要是在普通场景里做抓取,Redis、Kafka、Celery 各用各的,互不干涉也能“跑起来”。 但一旦换成 金融级的实时 Tick 数据抓取(纳斯达克逐笔数...

18610

AI 为什么能比你更懂网页?一次关于“语义抽取”的实战实验

jackcode

好不容易把一个站点的结构理清楚,整理了好几行 XPath 或 CSS Selector,终于把标题、评分、评论都抽出来了。 但没高兴几天,网页改版了。

12710

不是简单搜索,而是理解:让获取的论文会“语义对话”

jackcode

如果你做过科研、写过文献综述,或者只是帮同事找过一篇论文,你大概率体验过这种心情:

13310
领券