首页
学习
活动
专区
圈层
工具
发布

#缓存

缓存就是数据交换的缓冲区(称作Cache),当某一硬件要读取数据时,会首先从缓存中查找需要的数据,如果找到了则直接执行,找不到的话则从内存中找。缓存的作用是帮助硬件更快地运行。

给LLM开挂!SGLang 用基数树复用 KV 缓存

用户11991538

缓存命中率:命中缓存的token和总输入的token之比。当调度等待队列中的请求频繁的在不同请求间切换时,导致KV缓存的命中率很低。所以在一个batch中的请求...

300

vLLM推理框架|用"内存分页术"榨干GPU,让KV缓存不再"爆仓"!

用户11991538

逻辑内存(Logical KV Blocks) 中包含多个Block,一个Block相当于一页,每个Block中又包含一定数量的槽位,每个槽位用于存放一个tok...

600

大模型推理-基于prefill和decode阶段特性,PD分离,势在必行!

用户11991538

大模型预填充阶段主要用于处理prompt生成KV缓存,解码阶段根据缓存结果,自回归的生成下一个token。

1300

KV cache - 高效推理必备技术

用户11991538

大模型推理的解码阶段,生成单个token时,Q值需要使用全部序列token的KV值计算注意力,但除当前新token的KV值外,其他token的KV值已经在上一轮...

700

考试预生成方案

码灵

在考试系统中,当大量学生同时开始考试时,系统需要为每个学生创建考试记录(ExamRecord)和答题记录(ExamAnswerRecord)。传统的"按需创建"...

900

【Java基础】面试必问:基本类型、包装类与自动装箱的底层陷阱

用户11987541

Java 虽然是面向对象的语言,但为了性能考虑,保留了 8 种基本数据类型。而为了让这些数据能适配泛型、集合等对象机制,Java 又提供了对应的包装类。

2810

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

机器之心

研究团队提出了一个关键指标 —— 前缀可缓存性(Prefix Cacheability):在 KV 缓存解码中,只有形成连续左到右前缀的 token 才能被缓存...

1810

milvus v2.6.8 发布:全面优化查询性能与资源调度,新增搜索高亮功能,稳定性与安全性再升级!

福大大架构师每日一题

2026年1月4日,Milvus 官方正式发布 Milvus v2.6.8!这一版本在性能、稳定性以及用户体验上都进行了大幅升级,引入了全新的搜索结果高亮功能,...

3500

解决 Git 大文件仓库推送报错问题

Lcry

项目历史遗留原因,因为是合作项目也不会主动去采用仓库瘦身,lfs 等方式操作托管大文件,所以就是骚办法能用就行,针对于这种情况可以采用上面的命令增大缓存区以及超...

9110

告警时效性误差的难点与解决方案

沈宥

5410

数据库和缓存稳定性保障-扩容及升级规范

俊才

数据库和缓存是系统的核心组件,保障其稳定性是确保整个系统稳定运行的基础。通过制定本规范以便在在数据库及缓存相关指标及资源达到一定阈值时,参考本 规范提前...

8010

使用 Python 实现 MCP Server

安全风信子

作者:HOS(安全风信子) 日期:2026-01-01 来源平台:GitHub 摘要: MCP(Model Communication Protocol)...

33210

面向GPU集群的无状态LLM推理架构演进

皮振伟

在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...

14810

【Redis】Redis介绍 && Jedis && SpringDataRedis && 自定义序列化 && 端口转发配置

lirendada

Redis 是一种基于键值对(key-value)的 NoSQL 数据库,与很多键值对数据库不同的是,Redis 中的值可以是由 string(字符串)、has...

900

D课堂 | 如何减少DNS变更对业务的影响

腾讯云DNSPod团队

? D妹小tips:运营商缓存有独立的最小缓存时间,不受TTL控制。大部分运营商最小缓存时间为60s,但也存在600s等其他值。

10510

糟糕,我实现的k8s informer好像是依托答辩

有态度的马甲

③ 通过上述①②两步得到资源的最新状态并缓存,注意,缓存的是资源对象,而不是资源变更事件, 另外是线程安全的存储。

8310

STL容器性能探秘:stack、queue、deque的实现与CPU缓存命中率优化

云泽808

缓存容量是有限的,若加载了大量 “后续不会被访问” 的数据到缓存,会挤占 “有用数据” 的缓存空间,导致有用数据被挤出缓存→后续访问有用数据时触发 “未命中”,...

11310

一文吃透 Redis:主从复制 / 哨兵 / 集群模式 + 缓存 + 分布式锁

用户11719958

在刚开始架构演进的时候,没有缓存,此时要加入缓存,就要进行缓存预热。还有当服务器进行重启的时候,我们要保证重启之后缓存中是否有数据以及 这里的数据 是否是热点数...

41030

Go反射性能优化实战:让你的程序速度提升数倍的秘诀!

技术圈

通过这种缓存策略,方法查找性能可以提升5-10倍。在实际应用中,如序列化库中解析结构体标签时,可以按类型缓存字段映射关系,初始化时一次性完成结构体分析,后续直接...

8910

.NET+AI | MEAI | 会话缓存(6)

圣杰

通过 Microsoft.Extensions.AI 的缓存功能,智能存储和复用 AI 响应,显著降低 API 成本并将响应速度提升 10-100 倍。

11010
领券