暂无搜索历史
在图像、视频生成模型里, Diffusion Transformer,简称 DiT
扩散模型生成图片/视频时,本质是在很多个 denoising step 中反复调用 Transformer/DiT。TeaCache 的核心思想很简单:
第 7 课围绕 CUDA 中非常关键的 Memory Coalescing,即内存合并访问 展开。
本文围绕 CUDA 矩阵乘法中的 Shared Memory 优化展开,通过 Naive 矩阵乘法与 Shared Memory Tiled 矩阵乘法的对比实验...
在串行执行模式下,程序按照 H2D → Kernel → D2H 顺序运行,数据传输时 GPU 计算单元空闲,kernel 计算时 copy engine 又可...
前几课已经发现,很多 CUDA 程序并不是慢在 GPU kernel,而是慢在 H2D 和 D2H 数据搬运。 因此,第四课的重点从“怎么写 kernel”转向...
执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译
DP 的核心思想是:每组 GPU 上都有一份完整模型,请求被分发到不同副本上处理。
分享一款智谱的龙虾 AutoClaw,亲测可通过对话指令完成视频音频提取、视频拼接等操作,支持自定义模型,还能接入飞书配置机器人,全程动口不动手,操作简单且效果...
本文使用AI辅助,完全不敲一行代码,实现了一个乘法竖式计算演示的web应用,并部署到了github pages上
上面这个例子会报错,主进程触发了 CUDA 初始化,fork 出来的子进程中创建 tensor 的时候报错了
参考 https://docs.vllm.ai/en/latest/features/sleep_mode/
当大模型生成json格式的输出时,有时候可能会出现缺少引号,单引号等问题,json-repair 可以很好的解决这个问题
然后在监控服务web页面查询 api_requests_total,可以查看任务成功和失败次数
今天突然收到了女朋友的求助信息:“亲爱的,我的 PDF 软件好像坏了,我需要在上面加个电子签名,你能帮我弄一下吗?”
使用 xelatex 引擎,下载模板 https://github.com/Wandmalfarbe/pandoc-latex-template?tab=rea...
Vanna AI 的产品核心 解决了「自然语言到 SQL 查询」之间的鸿沟,使非技术人员也能轻松获得数据库中的洞察
本文记录了我在 vLLM 上探索「真正让 GPU 停下来」的全过程,并提供同步 / 异步 / 官方 OpenAI SDK 三种实现方式的可运行示例。
NVIDIA Dynamo 是一个高吞吐量、低延迟的推理框架,旨在为多节点分布式环境中的生成式 AI 和推理模型提供服务。Dynamo 设计为与推理引擎无关(支...
ZeroMQ (也写作 ØMQ, 0MQ 或 ZMQ) 是一个高性能的异步消息传递库,旨在用于分布式或并发应用程序。它提供了一个消息队列,无需一个专门的消息代理...