jackcode - 个人中心 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

jackcode

LV0

全部文章

从提取式API到隧道代理：提升爬虫稳定性的5个核心秘籍
很多新手还在使用传统的API提取式代理（每隔几分钟调一次API获取几个IP，存入本地池）。这种方式维护成本极高，且IP可用性在提取的那一刻就开始衰减。正确姿...
jackcode 13小时前2026-03-03 15:06:45
python爬虫、网页爬虫、云 API、动态代理、代理服务器
AI大模型训练数据告急？用Redis+动态代理采集数据集
随着大语言模型（LLM）参数量飙升到万亿级别，高质量的公共数据已经被各家大厂“刮地三尺”。想要获取更垂直、更新鲜的行业数据，必须深入互联网的毛细血管。但在严苛的...
jackcode 1天前2026-03-02 15:55:38
数据采集标注服务、python爬虫、redis、动态代理、数据采集
Go语言高并发采集：Goroutine配合隧道代理的极致性能体验
在互联网数据采集领域，高并发与访问限制始终是开发者必须面对的两大核心挑战。Go语言（Golang）凭借其原生支持的协程（Goroutine）和高效的网络模型，成...
jackcode 5天前2026-02-26 14:15:23
goland、go、代理服务器、动态代理、并发编程
商业实战复盘：并发不是越多越快
在商业数据采集的战场上，新手往往迷信“天下武功唯快不破”，喜欢在代码里把线程池的 max_workers 拉到满；而成熟的爬虫工程师往往是“资源精算师”，他们深...
jackcode 7天前2026-02-24 12:39:15
大数据处理、python爬虫、代理服务器、电商、数据挖掘
慢一点，并不会让你更安全
大多数教程都会给你一个类似的示例：请求之间加个 sleep，告诉你“别爬太快，网站就不会封你”。
jackcode 2026-01-272026-01-27 15:15:32
动态代理、python爬虫、爬虫、网络爬虫、网页爬虫
解析规则交给 AI，是效率提升还是系统隐患？
理由听起来很诱人： HTML 结构复杂、页面频繁改版、人工维护 XPath 成本高，而大模型“看一眼页面就能写规则”。
jackcode 2026-01-262026-01-26 16:44:21
数据分析、数据采集、python爬虫、html、xpath
采集架构的三次升级：脚本、Docker 与 Kubernetes
这篇文章不试图先给结论，而是通过一个真实、可落地的爬虫任务，完整演示爬虫架构的三次演进过程：
jackcode 2026-01-222026-01-22 14:25:09
架构、脚本、dockerfile、kubernetes、python爬虫
一次高并发采集系统的架构设计评审记录
评审主题：高并发数据采集系统设计核心争议：当前采集失败率高，是代码质量问题，还是系统架构问题？评审结论：这是一个典型的架构失配问题，而非代码层缺陷。
jackcode 2026-01-212026-01-21 15:17:25
高并发、架构设计、数据采集、多线程、python爬虫
从线程池到全局限流：并发失控的根因分析
很多采集系统的并发失控，并不是因为工程师不知道要“控制并发”，而是因为并发从来没有被当成一种“平台级资源”来设计。
jackcode 2026-01-202026-01-20 16:24:07
线程池、并发、高并发、集群、python爬虫
把采集系统装进容器之后，我们到底引入了什么风险
在很多团队的认知里，容器化意味着更高的稳定性与可控性。统一的运行环境、标准化部署、快速扩缩容，看起来都指向一个结论：采集系统会更可靠。
jackcode 2026-01-192026-01-19 16:22:37
数据采集、容器服务、多线程、dockerfile、python爬虫
从requests到浏览器自动化：企业级采集方案为什么必须使用混合架构
requests 没有过时，真正出问题的，是很多团队用它干了超出它能力边界的事。
jackcode 2026-01-152026-01-15 14:18:45
requests、python-requests、浏览器、自动化、python爬虫
请求成功率，才是容易被忽略的核心指标
在新闻采集业务中，代理的核心价值不是“能不能发出请求”，而是“请求是否成功拿到有效新闻内容”。
jackcode 2026-01-142026-01-14 15:09:56
网络协议、http、数据采集、python爬虫、代理服务器
别再迷信 Playwright 了，真正决定成败的不是浏览器
我以前也以为，只要页面是 JS 渲染的，上 Playwright 或 Selenium，问题基本就解决了。后来在一个真实项目里，我用同一个目标站点做了三组对...
jackcode 2026-01-132026-01-13 14:54:13
playwright、浏览器、selenium、自动化、python
页面没变，但解析全错了：问题到底出在哪？
我们所在的团队，需要长期跟踪招聘市场的变化趋势，用于支持内部的人力规划、岗位热度分析以及区域用工结构判断。为此，我们搭建了一套持续运行的爬虫系统，定期采集主流招...
jackcode 2026-01-122026-01-12 16:44:56
代理服务器、数据分析、数据采集、python爬虫、网页爬虫
增量采集为什么比全量采集更难？
我们做的是行业数据采集，最早用的是最土但最稳的方案：每天全量跑一遍，失败了就重跑。
jackcode 2026-01-082026-01-08 15:56:16
增量模型、数据采集、大数据、数据分析、python爬虫
分布式采集中，数据是怎么“悄无声息”丢掉的？
因为在分布式系统里，“请求成功”并不等于“数据成功”，而大多数爬虫系统，只验证了前者。
jackcode 2026-01-072026-01-07 14:55:27
并发编程、html、网络爬虫、分布式、数据采集
网页快照不是备份，而是一种数据策略
我以前也是这么想的。直到后来踩了几次坑，才意识到：网页快照不是“可选项”，而是数据系统是否成熟的分水岭。
jackcode 2026-01-062026-01-06 14:23:13
python爬虫、网页爬虫、html、数据结构、动态代理
爬虫真的能“自愈”吗？说点不那么好听的实话
让模型生成 XPath、CSS selector，看 demo 没问题。一到生产环境你就会发现：
jackcode 2026-01-052026-01-05 10:34:24
网络爬虫、网页爬虫、xpath、css-selectors、python爬虫
Worker越简单，系统越稳定：从单机到集群
IP 被封不一定报错，返回空页面也算成功稳定性依赖工程师经验，而不是系统感知出问题后只能人工排查和补跑
 jackcode 2026-01-042026-01-04 13:52:14
worker、集群、python、python爬虫、数据挖掘
不写规则也能抽数据？
“15-25K”“20K·14薪”“年薪 30-50 万”这些描述，如何统一量化？
jackcode 2025-12-252025-12-25 14:33:36
python爬虫、数据分析、数据挖掘、网页爬虫、xpath

12 3 4 5 6 7 8...23 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2020-09-11

个人成就

获得 661 次赞同
文章被阅读 402.5K 次

关注了：4关注者：24