SGLang使用程序化的语言模型技术,并利用基数树和压缩有限状态机很好的解决了KV缓存复用和结构化输出问题,本文主要围绕KV缓存复用讨论以下问题:
Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样,一个词一个词地往后蹦。虽然 OpenAI o1 和 Dee...
责任边界声明:本文聚焦 Docker Compose 形态下的生产部署实践,不涵盖 Kubernetes / Helm 等大规模集群场景。
最近出了 react 和 next.js 出了远程执行漏洞,包括 dify 在内的产品无疑幸免,在最新版本中 v1.11.1版本中才修复,虽然本站出了很多一些关...
从符号主义到连接主义的演进 - 符号主义的兴起与核心思想:作为AI早期的主流范式,符号主义认为智能的本质是对符号的逻辑运算,就像用公式推导数学题一样,通...
在 AI Agent 时代,大语言模型(LLM)需要超越单纯的文本生成能力,具备调用外部工具解决复杂问题的能力。MCP(Model Control Protoc...
在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...
腾讯 | 前端开发工程师 (已认证)
MLC是一个公益的机器学习领域的社区,它提供了非常多关于人工智能底层技术的探索。它们发布了 @mlc-ai/web-llm 作为前端快速接入LLM的技术基础。你...
作为医药人工智能研究者,我看过不少文章在讲大语言模型以及AI在医药行业应用场景的内容。但是这些内容讲得过于宽泛,也过于笼统。基本无法给药企、医疗机构实际落地提供...
这就是为什么我们在技术社区疯狂点赞、收藏干货,却在面试时面对简单概念支支吾吾的原因。我们陷入了一种“松鼠症”式的学习陷阱:误以为把文章放进收藏夹,知识就自动流进...
最近在使用 Roo Code、Cursor 等 AI 编程工具时,尝试接入腾讯混元大模型。混元提供了 OpenAI 兼容的 API 接口,理论上可以直接替换 O...
随着大语言模型技术的快速发展,LLM已经从实验室研究阶段逐步走向实际应用。然而,LLM的性能很大程度上依赖于用户提供的提示(Prompt)质量。一个好的提示能够...
大语言模型(LLM)作为人工智能领域的重要突破,在自然语言理解和生成方面取得了显著的成果。然而,传统的LLM主要处理文本模态,无法直接理解和生成其他模态的信息,...
为了解决这些问题,LLM推理优化技术应运而生。推理优化技术旨在提高LLM的推理速度、降低显存占用、提高吞吐量和降低能源消耗,使LLM能够更广泛地应用于各种场景。
2025年,参数高效微调技术已经成为LLM微调的主流选择,其中LoRA系列技术,特别是QLoRA,凭借其高效的参数利用和出色的性能表现,得到了广泛的应用。这些技...
2025年,LLM压缩技术已经取得了显著的进展,量化技术成为主流,结构化压缩技术趋于成熟,硬件感知压缩和端到端压缩工具链逐渐形成。这些技术的发展为LLM的广泛应...
在工程方面,使用LLMs编写代码,就像雇一个“跑腿兔”来帮我拼拼图一样无趣。如果你认为LLMs是一个额外的队友,那么管理它们也同样没有乐趣。培养LLM的个人成长...