作者:HOS(安全风信子) 日期:2026-01-21 来源平台:GitHub 摘要: 本文深入剖析 vLLM 核心采样模块 sampling.py,揭示...
作者:HOS(安全风信子) 日期:2026-01-21 来源平台:GitHub 摘要: 本文深入剖析vLLM推理引擎中的api_server.py模块,作...
作者:HOS(安全风信子) 日期:2026-01-21 来源平台:GitHub 摘要: 本文深入解析vLLM核心模块model_runner.py,揭示其...
作者:HOS(安全风信子) 日期:2026-01-21 来源平台:GitHub 摘要: 本文深入解析vLLM调度器核心模块scheduler.py,揭示其...
作者:HOS(安全风信子) 日期:2026-01-21 来源平台:GitHub 摘要: 本文深入解析vLLM引擎核心模块engine.py,通过源码精读揭...
RAG的工作流程可以分为两大阶段:离线索引(Indexing) 和 在线检索生成(Retrieval & Generation)。
这一过程必须低延迟、高可靠、可并发。本文将揭开 CANN Runtime 的内部工作机制。
当一台边缘 AI 盒子部署在无风扇的配电柜中,或一辆无人配送车需连续运行 12 小时,性能不再是唯一目标——能效才是生存底线。
本文将带你完成一次完整的 LLM 部署实战——以 Llama-2-7B 为例,展示如何利用 CANN 实现:
在金融风控、身份认证、军事安防等场景中,这类风险不可接受。 CANN(Compute Architecture for Neural Networks) 不...
相关资源链接 cann组织链接:cann组织 ops-nn仓库链接:ops-nn仓库
在 CANN(Compute Architecture for Neural Networks)架构中,内存管理不是简单的“分配-释放”,而是一套基于计算图拓扑...
cann组织链接:https://atomgit.com/cann ops-nn仓库链接:https://atomgit.com/cann/ops-nn
欢迎加入 开源鸿蒙跨平台开发者社区,获取最新资源与技术支持: 👉 开源鸿蒙跨平台开发者社区
CANN(Compute Architecture for Neural Networks) 正是围绕这三大命题,构建了一套覆盖 “芯片 → 驱动 → 编译器...
这些优化不是魔法,而是一套精密的基于规则与成本模型的图重写系统。本文将带你走进 ATC 的内部,理解它如何“读懂”模型并“重塑”计算。
而这些任务往往运行在 功耗 ≤ 30W、内存 ≤ 16GB 的嵌入式平台上。通用 CPU 或 GPU 方案要么性能不足,要么功耗超标。 CANN(Comp...
通用推理框架往往在此类任务中“力不从心”。而 CANN(Compute Architecture for Neural Networks) 凭借其全栈协同设...
传统通用推理引擎常在此类任务中“水土不服”。而 CANN(Compute Architecture for Neural Networks) 通过一系列 NLP...
现代深度学习框架(如 PyTorch、TensorFlow)在运行时通常以动态图或静态图形式表示模型。这些图由大量基础算子(Op)组成,例如: