腾讯云大模型训推平台TI-ONE 内置推理镜像列表

简介
TI-ONE 平台在线服务模块为用户内置了数十种业界主流推理框架，按场景划分为四大类：
大语言模型 & 多模态理解：以 vLLM、SGLang 为核心，同时内置腾讯自研 TACO / TACO-X 全异步推理框架（面向 Qwen3、GLM-5 等系列模型专项优化），大部分 LLM 镜像支持多机分布式部署。
多模态生成：涵盖 Stable Diffusion WebUI、Diffusers（含 mosec 高性能封装版，适配 A10/T4 加速卡）、ComfyUI 节点式工作流等图像生成方案。
具身智能：基于 NVIDIA COSMOS 世界模型的 transfer 与 predict 系列（cosmos-transfer1/2.5、cosmos-predict2/2.5），预装 PyTorch + diffusers + flash-attn 完整工具链，支持 PNV6/HCCPNV6/H100/H800 等卡型。
通用框架：包含 PyTorch（GPU/CPU 多版本）、TensorFlow / TF Serving（1.x 及 2.x 全系列）、ONNX Runtime（跨框架转换部署）、Detectron2（目标检测与分割）、MMDetection（OpenMMLab 目标检测）、Triton + TRT-LLM（NVIDIA 推理服务化）及 PMML（传统机器学习）等，满足 CV/NLP/工业视觉等全场景模型部署需求。
所有内置镜像均已预配置运行环境依赖（CUDA、Python、推理引擎及加速库等），用户在创建推理服务时可直接选用对应镜像，无需手动构建基础环境。
大语言&多模态理解
框架
镜像名称
多机分布式部署
镜像描述
VLLM
vllm(0.9.1)
支持
大模型推理框架 vLLM，开源版本 v0.9.1
VLLM
vllm(0.20.2)
支持
大模型推理框架 vLLM，开源版本 v0.20.2，CUDA 13.0 环境
VLLM
vllm(0.20.1)
支持
大模型推理框架 vLLM，开源版本 v0.20.1，CUDA 12.9 环境
VLLM
vllm(0.20.0)
支持
大模型推理框架 vLLM，开源版本 v0.20.0，CUDA 12.9 环境
VLLM
vllm(0.19.1)
支持
大模型推理框架 vLLM，开源版本 v0.19.1
VLLM
vllm(0.19.0)
支持
大模型推理框架 vLLM，开源版本 v0.19.0
VLLM
vllm(0.18.1)
支持
大模型推理框架 vLLM，开源版本 v0.18.1
VLLM
vllm(0.15.0)
支持
大模型推理框架 vLLM，开源版本 v0.15.0
VLLM
vllm(0.12.0)
支持
大模型推理框架 vLLM，开源版本 v0.12.0
VLLM
vllm(0.10.2)
支持
大模型推理框架 vLLM，开源版本 v0.10.2，额外支持 Youtu 系列和 Hunyuan-Dense 系列模型
VLLM
vllm(0.10.0)
支持
大模型推理框架 vLLM，开源版本 v0.10.0
VLLM
angel-vllm-cu130(0.19.0)
不支持
大模型推理框架 vLLM，基于开源版本 v0.19.0 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM
angel-vllm-cu128(0.9.2)
支持
大模型推理框架 vLLM，基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM
angel-vllm-cu128(0.10.2)
不支持
大模型推理框架 vLLM，基于开源版本 v0.10.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM
angel-vllm(2.1)
支持
大模型推理框架 vLLM，基于开源版本 v0.6.2 的腾讯 Angel 自研加速版本（额外支持 ifq 等动态量化方式，额外支持 lookahead 并行解码）
VLLM
angel-vllm(2.0)
支持
大模型推理框架 vLLM，基于开源版本 v0.4.2 的腾讯 Angel 自研加速版本
VLLM
angel-vllm(0.9.2)
支持
大模型推理框架 vLLM，基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，兼容 qGPU）
SGLANG
sglang-v0.5.9-nightly
支持
大模型推理框架 SGLang，开源版本 v0.5.9
SGLANG
sglang-v0.5.6-xpu
支持
大模型推理框架 SGLang v0.5.6，昆仑芯 P800 20260509_4188版本
SGLANG
sglang-v0.5.6.post2
支持
大模型推理框架 SGLang，开源版本 v0.5.6.post2
SGLANG
sglang-v0.5.2
支持
大模型推理框架 SGLang，开源版本 v0.5.2
SGLANG
sglang-v0.5.10
支持
大模型推理框架 SGLang，开源版本 v0.5.10
SGLANG
sglang-v0.4.6.post4-dev
支持
大模型推理框架 SGLang，开源版本 v0.4.6.post4
SGLANG
sglang-v0.4.4.post2-dev
支持
大模型推理框架 SGLang，开源版本 v0.4.4.post2
SGLANG
sglang-v0.4.3-dev
支持
大模型推理框架 SGLang，开源版本 v0.4.3
TACO
taco-x-v26.04.20
不支持
腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。适用于 Qwen3、Qwen2.5-VL、Qwen3-VL 系列模型。
TACO
taco-sglang-v26.03.26
支持
腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。
TACO
taco-sglang-router-v26.03.26
支持
腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。是多角色部署时 proxy 角色的内置镜像。
TACO-X
taco-x-v0.0.1
不支持
腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。
多模态生成
框架
镜像名称
多机分布式部署
镜像描述
STABLEDIFFUSION-WebUI
sd-webui-1.6.0(gpu)
不支持
sd-webui1.6镜像
DIFFUSERS
stable-diffusion-diffusers(gpu)
不支持
图像生成推理框架，Diffusers 开源版本
DIFFUSERS
stabe-diffusion-mosec-a10(gpu)
不支持
图像生成推理框架，基于 mosec 镜像封装，内置 A10 加速包
DIFFUSERS
stabe-diffusion-mosec(gpu)
不支持
图像生成推理框架，基于 mosec 镜像封装，内置 T4 加速包
COMFYUI
comfyui-0.3.76-py311-cu128
不支持
ComfyUI 是基于 ​​Stable Diffusion​​ 的节点式图形用户界面​​，专为 AI 绘画和图像生成设计
具身智能
框架
镜像名称
多机分布式部署
镜像描述
COSMOS
cosmos-transfer2.5-cu128
不支持
核心库：CUDA 12.8，uv，jupyterlab 4.4.9
uv 环境：
- cosmos-transfer2：python3.10，torch 2.7.0+cu128，torchvision 0.22.0+cu128，diffusers==0.35.2，cosmos-cuda==1.4.1，cosmos-guardrail==0.1.0，cosmos-oss==1.4.1，cosmos-transfer2==1.4.1，flash-attn==2.7.3+cu128.torch27
适用的模型：cosmos-transfer2.5，进入镜像的 /workspace/cosmos-transfer2.5 目录获取代码示例。
支持的卡型：PNV6，HCCPNV6，H100，H800
COSMOS
cosmos-transfer1-cu128
不支持
核心库：CUDA 12.8，miniforge3，jupyterlab 4.3.6，jupyterlab-tensorboard-pro 4.0.0
conda 环境： 
- cosmos：python3.12，torch 2.7.1+cu128，torchvision 0.22.1+cu128，apex 0.1，transformer_engine 1.13.0+cu128，flash_attn 2.6.3+cu128
适用的模型：cosmos-transfer1，进入镜像的 /workspace/cosmos-transfer1 目录获取代码示例
支持的卡型：PNV6，HCCPNV6，H100，H800
COSMOS
cosmos-predict2-cu128
不支持
核心库：CUDA 12.8，uv，jupyterlab 4.4.9
uv 环境：
- cosmos-predict2：python3.12，torch 2.6.0+cu126，torchvision 0.21.0+cu126，diffusers==0.34.0，cosmos-guardrail==0.1.0，apex==0.1.0，flash-attn==2.6.3
适用的模型：cosmos-predict2，进入镜像的 /workspace/cosmos-predict2 目录获取代码示例。
支持的卡型：PNV6，HCCPNV6，H100，H800
COSMOS
cosmos-predict2.5-cu128
不支持
核心库：CUDA 12.8，uv，jupyterlab 4.4.9
uv 环境：
- cosmos-predict2：python3.10，torch 2.7.0+cu128，torchvision 0.22.0+cu128，diffusers==0.35.2，cosmos-cuda==1.4.1，cosmos-guardrail==0.1.0，cosmos-oss==1.4.1，cosmos-transfer2==1.4.1，flash-attn==2.7.3+cu128.torch27
适用的模型：cosmos-predict2.5，进入镜像的 /workspace/cosmos-predict2.5 目录获取代码示例。
支持的卡型：PNV6，HCCPNV6，H100，H800
通用框架
框架
镜像名称
多机分布式部署
镜像描述
PYTORCH
pytorch2.1.0-py310
不支持
深度学习框架，适用于 CV/NLP 场景模型部署，GPU 版
PYTORCH
pytorch1.9.0-py38(gpu)
不支持
深度学习框架，适用于 CV/NLP 场景模型部署，GPU 版
PYTORCH
pytorch1.9.0-py38(cpu)
不支持
深度学习框架，适用于 CV/NLP 场景模型部署，CPU 版
PYTORCH
pytorch1.12.0-py38(gpu)
不支持
深度学习框架，适用于 CV/NLP 场景模型部署，GPU 版
PYTORCH
alpamayo-inference
不支持
支持 Alpamayo-R1-10B 自动驾驶模型推理
TENSORFLOW
tfserving2.4
不支持
tfserving2.4镜像
TENSORFLOW
tfserving1.15
不支持
tfserving 1.15镜像
TENSORFLOW
tensorflow2.4-py38(gpu)
不支持
tfserving2.4 镜像 python+gpu 版本
TENSORFLOW
tensorflow2.4-py38(cpu)
不支持
tfserving2.4 镜像 python 无 gpu 版本
TENSORFLOW
tensorflow1.15-py37(gpu)
不支持
tfserving1.15 镜像 python+ gpu 版本
TENSORFLOW
tensorflow1.15-py37(cpu)
不支持
tfserving1.15 镜像 python 无 gpu 版本
DETECTRON2
detectron2-py38(gpu)
不支持
目标检测与分割库，适用于工业领域下的目标检测/目标分割、视频分析等场景
ONNX
onnx1.11.1-py38(gpu)
不支持
深度学习框架，适用于跨框架模型转换部署(如 PyTorch/TensorFlow 模型转为统一格式)，GPU 版
ONNX
onnx1.11.1-py38(cpu)
不支持
深度学习框架，适用于跨框架模型转换部署(如 PyTorch/TensorFlow 模型转为统一格式)，CPU 版
MMDETECTION
mmdetection1.4.8-py38(gpu)
不支持
目标检测与分割库，由 OpenMMLab 开发
TRITON
23.10-py3-trtllm-0.7.1
不支持
triton + trtllm 推理镜像（0.7.1版本的 trtllm）
PMML
jpmml-py38
不支持
传统机器学习推理框架
﻿

框架	镜像名称	多机分布式部署	镜像描述
VLLM	vllm(0.9.1)	支持	大模型推理框架 vLLM，开源版本 v0.9.1
VLLM	vllm(0.20.2)	支持	大模型推理框架 vLLM，开源版本 v0.20.2，CUDA 13.0 环境
VLLM	vllm(0.20.1)	支持	大模型推理框架 vLLM，开源版本 v0.20.1，CUDA 12.9 环境
VLLM	vllm(0.20.0)	支持	大模型推理框架 vLLM，开源版本 v0.20.0，CUDA 12.9 环境
VLLM	vllm(0.19.1)	支持	大模型推理框架 vLLM，开源版本 v0.19.1
VLLM	vllm(0.19.0)	支持	大模型推理框架 vLLM，开源版本 v0.19.0
VLLM	vllm(0.18.1)	支持	大模型推理框架 vLLM，开源版本 v0.18.1
VLLM	vllm(0.15.0)	支持	大模型推理框架 vLLM，开源版本 v0.15.0
VLLM	vllm(0.12.0)	支持	大模型推理框架 vLLM，开源版本 v0.12.0
VLLM	vllm(0.10.2)	支持	大模型推理框架 vLLM，开源版本 v0.10.2，额外支持 Youtu 系列和 Hunyuan-Dense 系列模型
VLLM	vllm(0.10.0)	支持	大模型推理框架 vLLM，开源版本 v0.10.0
VLLM	angel-vllm-cu130(0.19.0)	不支持	大模型推理框架 vLLM，基于开源版本 v0.19.0 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM	angel-vllm-cu128(0.9.2)	支持	大模型推理框架 vLLM，基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM	angel-vllm-cu128(0.10.2)	不支持	大模型推理框架 vLLM，基于开源版本 v0.10.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，不兼容 qGPU）
VLLM	angel-vllm(2.1)	支持	大模型推理框架 vLLM，基于开源版本 v0.6.2 的腾讯 Angel 自研加速版本（额外支持 ifq 等动态量化方式，额外支持 lookahead 并行解码）
VLLM	angel-vllm(2.0)	支持	大模型推理框架 vLLM，基于开源版本 v0.4.2 的腾讯 Angel 自研加速版本
VLLM	angel-vllm(0.9.2)	支持	大模型推理框架 vLLM，基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本（额外支持 dpgemm_fp8 量化方式，兼容 qGPU）
SGLANG	sglang-v0.5.9-nightly	支持	大模型推理框架 SGLang，开源版本 v0.5.9
SGLANG	sglang-v0.5.6-xpu	支持	大模型推理框架 SGLang v0.5.6，昆仑芯 P800 20260509_4188版本
SGLANG	sglang-v0.5.6.post2	支持	大模型推理框架 SGLang，开源版本 v0.5.6.post2
SGLANG	sglang-v0.5.2	支持	大模型推理框架 SGLang，开源版本 v0.5.2
SGLANG	sglang-v0.5.10	支持	大模型推理框架 SGLang，开源版本 v0.5.10
SGLANG	sglang-v0.4.6.post4-dev	支持	大模型推理框架 SGLang，开源版本 v0.4.6.post4
SGLANG	sglang-v0.4.4.post2-dev	支持	大模型推理框架 SGLang，开源版本 v0.4.4.post2
SGLANG	sglang-v0.4.3-dev	支持	大模型推理框架 SGLang，开源版本 v0.4.3
TACO	taco-x-v26.04.20	不支持	腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。适用于 Qwen3、Qwen2.5-VL、Qwen3-VL 系列模型。
TACO	taco-sglang-v26.03.26	支持	腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。
TACO	taco-sglang-router-v26.03.26	支持	腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。是多角色部署时 proxy 角色的内置镜像。
TACO-X	taco-x-v0.0.1	不支持	腾讯自研大模型推理框架，采用全异步设计，在推理性能、显存占用、启动耗时等方面显著优于社区方案。

内置推理镜像列表

本页目录：

简介

大语言&多模态理解

多模态生成

具身智能

通用框架