暂无搜索历史
今天这篇文章,我不打算站队。我想做的是——把这两条路,从 0 到 1,给你完整走一遍。
服务超时、探针失败、Pod 起不来、节点 NotReady、偶发 502……你去翻日志,啥也没有;你问开发,人家说“我代码没改”;你一看监控,CPU、内存都挺健...
听着是不是很熟?产品拍板、技术加班、运营祈祷,最后一看数据——效果好不好,全靠感觉。
我们今天用的互联网,本质上还是 “信息发布 + 平台集中 + 人工决策” 的组合。
Calico 默认走的是 三层路由(BGP IP-in-IP VXLAN),核心思想一句话:
模型在验证集上 AUC 0.92,线上效果也不错,结果一到评审会,被业务同学一句话打回原形:
听起来非常合理,也确实解决了一大批问题:低延迟、弱网络、实时响应、数据本地处理……但干到今天,越来越多团队开始发现一个事实:
Istio、Envoy、Sidecar、流量镜像、灰度发布、金丝雀、熔断、限流、可观测性……PPT 上一个比一个好看。
但真干几年你就会发现一个残酷现实:大多数业务场景,数据从一开始就不够,而且永远不够。
在小流量时代没问题,在 百万 PPS(packet per second) 面前:
很多文章把它写得很“学术”,什么优化目标、通信复杂度、收敛性证明……但我想换个方式,用工程视角,掰开揉碎,聊清楚它到底解决了什么问题,又踩过哪些坑。
模型很漂亮,大屏很炫,但你问一句:👉 “如果明天下暴雨,这套系统能提前告诉我哪里会瘫吗?”现场往往会安静三秒。
很多人第一次听 eBPF,是从 tracing、bcc、bpftrace 开始的,但说实话:
训练时 AUC 飞起、离线评估美如画,一到线上就翻车——延迟高、数据对不上、效果漂、被业务嫌弃。这事儿我见太多了。
这两年,只要你稍微混点技术圈,就一定绕不开一个词:AGI(Artificial General Intelligence,通用人工智能)。
如果你真做过 IoT、零售门店、工厂边缘节点 这种场景的运维,你一定有过这种感受:
这两年只要你跟 AI、推荐、广告、搜索、风控沾点边,迟早会被一个词追着跑——千亿级样本训练数据。
但如果你真的顺着时间线往下捋,会发现一件挺有意思的事:中国量子科技的崛起,并不是“突然开挂”,而是一条非常工程化、非常“理工男”的路径。
「服务慢了,你们日志呢?」 「没打……」 「指标呢?」 「没接……」 「链路追踪呢?」 「代码里没埋……」
暂未填写公司和职称
暂未填写学校和专业