首页
学习
活动
专区
圈层
工具
发布

#LLM

给LLM开挂!SGLang 用基数树复用 KV 缓存

用户11991538

SGLang使用程序化的语言模型技术,并利用基数树和压缩有限状态机很好的解决了KV缓存复用和结构化输出问题,本文主要围绕KV缓存复用讨论以下问题:

200

# 解密Prompt68. 告别逐词蹦字 - Transformer 的新推理范式

风雨中的小七

Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样,一个词一个词地往后蹦。虽然 OpenAI o1 和 Dee...

3500

Dify 开源 LLM 应用开发平台企业级 Docker Compose 部署手册

轩辕镜像

责任边界声明:本文聚焦 Docker Compose 形态下的生产部署实践,不涵盖 Kubernetes / Helm 等大规模集群场景。

5100

开源 LLM 应用开发平台 Dify 部署教程

Lcry

最近出了 react 和 next.js 出了远程执行漏洞,包括 dify 在内的产品无疑幸免,在最新版本中 v1.11.1版本中才修复,虽然本站出了很多一些关...

11310

大模型技术全景解析:从起源到前沿应用

用户8714550

从符号主义到连接主义的演进 - 符号主义的兴起与核心思想:作为AI早期的主流范式,符号主义认为智能的本质是对符号的逻辑运算,就像用公式推导数学题一样,通...

45120

MCP Client 与 LLM 的协作流程

安全风信子

在 AI Agent 时代,大语言模型(LLM)需要超越单纯的文本生成能力,具备调用外部工具解决复杂问题的能力。MCP(Model Control Protoc...

11110

面向GPU集群的无状态LLM推理架构演进

皮振伟

在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...

14810

颠覆前端开发,在浏览器端运行LLM(RAG),免费快速,详细实现教程

www.tangshuang.net

腾讯 | 前端开发工程师 (已认证)

MLC是一个公益的机器学习领域的社区,它提供了非常多关于人工智能底层技术的探索。它们发布了 @mlc-ai/web-llm 作为前端快速接入LLM的技术基础。你...

13110

大语言模型(LLM)在医药行业深度场景解析

DrugAI

作为医药人工智能研究者,我看过不少文章在讲大语言模型以及AI在医药行业应用场景的内容。但是这些内容讲得过于宽泛,也过于笼统。基本无法给药企、医疗机构实际落地提供...

10820

大语言模型(LLM)在医药行业深度场景解析

DrugAI

作为医药人工智能研究者,我看过不少文章在讲大语言模型以及AI在医药行业应用场景的内容。但是这些内容讲得过于宽泛,也过于笼统。基本无法给药企、医疗机构实际落地提供...

10820

收藏从未读?你的大脑需要一台“知识压缩机”

huizhudev

这就是为什么我们在技术社区疯狂点赞、收藏干货,却在面试时面对简单概念支支吾吾的原因。我们陷入了一种“松鼠症”式的学习陷阱:误以为把文章放进收藏夹,知识就自动流进...

6610

使用 LiteLLM 解决腾讯混元大模型与 AI 编程工具的兼容性问题

怀民

最近在使用 Roo Code、Cursor 等 AI 编程工具时,尝试接入腾讯混元大模型。混元提供了 OpenAI 兼容的 API 接口,理论上可以直接替换 O...

10610

LLM提示工程:从基础到进阶

安全风信子

随着大语言模型技术的快速发展,LLM已经从实验室研究阶段逐步走向实际应用。然而,LLM的性能很大程度上依赖于用户提供的提示(Prompt)质量。一个好的提示能够...

15410

LLM多模态融合技术:从理论到实践

安全风信子

大语言模型(LLM)作为人工智能领域的重要突破,在自然语言理解和生成方面取得了显著的成果。然而,传统的LLM主要处理文本模态,无法直接理解和生成其他模态的信息,...

64910

LLM推理优化技术:从理论到实践

安全风信子

为了解决这些问题,LLM推理优化技术应运而生。推理优化技术旨在提高LLM的推理速度、降低显存占用、提高吞吐量和降低能源消耗,使LLM能够更广泛地应用于各种场景。

28010

LLM微调技术:从LoRA到QLoRA的演进

安全风信子

2025年,参数高效微调技术已经成为LLM微调的主流选择,其中LoRA系列技术,特别是QLoRA,凭借其高效的参数利用和出色的性能表现,得到了广泛的应用。这些技...

28110

LLM模型压缩技术:从理论到实践

安全风信子

2025年,LLM压缩技术已经取得了显著的进展,量化技术成为主流,结构化压缩技术趋于成熟,硬件感知压缩和端到端压缩工具链逐渐形成。这些技术的发展为LLM的广泛应...

21410

大语言模型并不有趣:一位开发者的技术反思

qife122

在工程方面,使用LLMs编写代码,就像雇一个“跑腿兔”来帮我拼拼图一样无趣。如果你认为LLMs是一个额外的队友,那么管理它们也同样没有乐趣。培养LLM的个人成长...

9310
领券