简介
TI-ONE 平台在线服务模块为用户内置了数十种业界主流推理框架,按场景划分为四大类:
大语言模型 & 多模态理解:以 vLLM、SGLang 为核心,同时内置腾讯自研 TACO / TACO-X 全异步推理框架(面向 Qwen3、GLM-5 等系列模型专项优化),大部分 LLM 镜像支持多机分布式部署。
多模态生成:涵盖 Stable Diffusion WebUI、Diffusers(含 mosec 高性能封装版,适配 A10/T4 加速卡)、ComfyUI 节点式工作流等图像生成方案。
具身智能:基于 NVIDIA COSMOS 世界模型的 transfer 与 predict 系列(cosmos-transfer1/2.5、cosmos-predict2/2.5),预装 PyTorch + diffusers + flash-attn 完整工具链,支持 PNV6/HCCPNV6/H100/H800 等卡型。
通用框架:包含 PyTorch(GPU/CPU 多版本)、TensorFlow / TF Serving(1.x 及 2.x 全系列)、ONNX Runtime(跨框架转换部署)、Detectron2(目标检测与分割)、MMDetection(OpenMMLab 目标检测)、Triton + TRT-LLM(NVIDIA 推理服务化)及 PMML(传统机器学习)等,满足 CV/NLP/工业视觉等全场景模型部署需求。
所有内置镜像均已预配置运行环境依赖(CUDA、Python、推理引擎及加速库等),用户在创建推理服务时可直接选用对应镜像,无需手动构建基础环境。
大语言&多模态理解
框架 | 镜像名称 | 多机分布式部署 | 镜像描述 |
VLLM | vllm(0.9.1) | 支持 | 大模型推理框架 vLLM,开源版本 v0.9.1 |
VLLM | vllm(0.20.2) | 支持 | 大模型推理框架 vLLM,开源版本 v0.20.2,CUDA 13.0 环境 |
VLLM | vllm(0.20.1) | 支持 | 大模型推理框架 vLLM,开源版本 v0.20.1,CUDA 12.9 环境 |
VLLM | vllm(0.20.0) | 支持 | 大模型推理框架 vLLM,开源版本 v0.20.0,CUDA 12.9 环境 |
VLLM | vllm(0.19.1) | 支持 | 大模型推理框架 vLLM,开源版本 v0.19.1 |
VLLM | vllm(0.19.0) | 支持 | 大模型推理框架 vLLM,开源版本 v0.19.0 |
VLLM | vllm(0.18.1) | 支持 | 大模型推理框架 vLLM,开源版本 v0.18.1 |
VLLM | vllm(0.15.0) | 支持 | 大模型推理框架 vLLM,开源版本 v0.15.0 |
VLLM | vllm(0.12.0) | 支持 | 大模型推理框架 vLLM,开源版本 v0.12.0 |
VLLM | vllm(0.10.2) | 支持 | 大模型推理框架 vLLM,开源版本 v0.10.2,额外支持 Youtu 系列和 Hunyuan-Dense 系列模型 |
VLLM | vllm(0.10.0) | 支持 | 大模型推理框架 vLLM,开源版本 v0.10.0 |
VLLM | angel-vllm-cu130(0.19.0) | 不支持 | 大模型推理框架 vLLM,基于开源版本 v0.19.0 的腾讯 Angel 自研加速版本(额外支持 dpgemm_fp8 量化方式,不兼容 qGPU) |
VLLM | angel-vllm-cu128(0.9.2) | 支持 | 大模型推理框架 vLLM,基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本(额外支持 dpgemm_fp8 量化方式,不兼容 qGPU) |
VLLM | angel-vllm-cu128(0.10.2) | 不支持 | 大模型推理框架 vLLM,基于开源版本 v0.10.2 的腾讯 Angel 自研加速版本(额外支持 dpgemm_fp8 量化方式,不兼容 qGPU) |
VLLM | angel-vllm(2.1) | 支持 | 大模型推理框架 vLLM,基于开源版本 v0.6.2 的腾讯 Angel 自研加速版本(额外支持 ifq 等动态量化方式,额外支持 lookahead 并行解码) |
VLLM | angel-vllm(2.0) | 支持 | 大模型推理框架 vLLM,基于开源版本 v0.4.2 的腾讯 Angel 自研加速版本 |
VLLM | angel-vllm(0.9.2) | 支持 | 大模型推理框架 vLLM,基于开源版本 v0.9.2 的腾讯 Angel 自研加速版本(额外支持 dpgemm_fp8 量化方式,兼容 qGPU) |
SGLANG | sglang-v0.5.9-nightly | 支持 | 大模型推理框架 SGLang,开源版本 v0.5.9 |
SGLANG | sglang-v0.5.6-xpu | 支持 | 大模型推理框架 SGLang v0.5.6,昆仑芯 P800 20260509_4188版本 |
SGLANG | sglang-v0.5.6.post2 | 支持 | 大模型推理框架 SGLang,开源版本 v0.5.6.post2 |
SGLANG | sglang-v0.5.2 | 支持 | 大模型推理框架 SGLang,开源版本 v0.5.2 |
SGLANG | sglang-v0.5.10 | 支持 | 大模型推理框架 SGLang,开源版本 v0.5.10 |
SGLANG | sglang-v0.4.6.post4-dev | 支持 | 大模型推理框架 SGLang,开源版本 v0.4.6.post4 |
SGLANG | sglang-v0.4.4.post2-dev | 支持 | 大模型推理框架 SGLang,开源版本 v0.4.4.post2 |
SGLANG | sglang-v0.4.3-dev | 支持 | 大模型推理框架 SGLang,开源版本 v0.4.3 |
TACO | taco-x-v26.04.20 | 不支持 | 腾讯自研大模型推理框架,采用全异步设计,在推理性能、显存占用、启动耗时等方面显著优于社区方案。适用于 Qwen3、Qwen2.5-VL、Qwen3-VL 系列模型。 |
TACO | taco-sglang-v26.03.26 | 支持 | 腾讯自研大模型推理框架,采用全异步设计,在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。 |
TACO | taco-sglang-router-v26.03.26 | 支持 | 腾讯自研大模型推理框架,采用全异步设计,在推理性能、显存占用、启动耗时等方面显著优于社区方案。该镜像仅支持加速 GLM-5 系列模型。是多角色部署时 proxy 角色的内置镜像。 |
TACO-X | taco-x-v0.0.1 | 不支持 | 腾讯自研大模型推理框架,采用全异步设计,在推理性能、显存占用、启动耗时等方面显著优于社区方案。 |
多模态生成
框架 | 镜像名称 | 多机分布式部署 | 镜像描述 |
STABLEDIFFUSION-WebUI | sd-webui-1.6.0(gpu) | 不支持 | sd-webui1.6镜像 |
DIFFUSERS | stable-diffusion-diffusers(gpu) | 不支持 | 图像生成推理框架,Diffusers 开源版本 |
DIFFUSERS | stabe-diffusion-mosec-a10(gpu) | 不支持 | 图像生成推理框架,基于 mosec 镜像封装,内置 A10 加速包 |
DIFFUSERS | stabe-diffusion-mosec(gpu) | 不支持 | 图像生成推理框架,基于 mosec 镜像封装,内置 T4 加速包 |
COMFYUI | comfyui-0.3.76-py311-cu128 | 不支持 | ComfyUI 是基于 Stable Diffusion 的节点式图形用户界面,专为 AI 绘画和图像生成设计 |
具身智能
框架 | 镜像名称 | 多机分布式部署 | 镜像描述 |
COSMOS | cosmos-transfer2.5-cu128 | 不支持 | 核心库:CUDA 12.8,uv,jupyterlab 4.4.9 uv 环境: - cosmos-transfer2:python3.10,torch 2.7.0+cu128,torchvision 0.22.0+cu128,diffusers==0.35.2,cosmos-cuda==1.4.1,cosmos-guardrail==0.1.0,cosmos-oss==1.4.1,cosmos-transfer2==1.4.1,flash-attn==2.7.3+cu128.torch27 适用的模型:cosmos-transfer2.5,进入镜像的 /workspace/cosmos-transfer2.5 目录获取代码示例。 支持的卡型:PNV6,HCCPNV6,H100,H800 |
COSMOS | cosmos-transfer1-cu128 | 不支持 | 核心库:CUDA 12.8,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: - cosmos:python3.12,torch 2.7.1+cu128,torchvision 0.22.1+cu128,apex 0.1,transformer_engine 1.13.0+cu128,flash_attn 2.6.3+cu128 适用的模型:cosmos-transfer1,进入镜像的 /workspace/cosmos-transfer1 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800 |
COSMOS | cosmos-predict2-cu128 | 不支持 | 核心库:CUDA 12.8,uv,jupyterlab 4.4.9 uv 环境: - cosmos-predict2:python3.12,torch 2.6.0+cu126,torchvision 0.21.0+cu126,diffusers==0.34.0,cosmos-guardrail==0.1.0,apex==0.1.0,flash-attn==2.6.3 适用的模型:cosmos-predict2,进入镜像的 /workspace/cosmos-predict2 目录获取代码示例。 支持的卡型:PNV6,HCCPNV6,H100,H800 |
COSMOS | cosmos-predict2.5-cu128 | 不支持 | 核心库:CUDA 12.8,uv,jupyterlab 4.4.9 uv 环境: - cosmos-predict2:python3.10,torch 2.7.0+cu128,torchvision 0.22.0+cu128,diffusers==0.35.2,cosmos-cuda==1.4.1,cosmos-guardrail==0.1.0,cosmos-oss==1.4.1,cosmos-transfer2==1.4.1,flash-attn==2.7.3+cu128.torch27 适用的模型:cosmos-predict2.5,进入镜像的 /workspace/cosmos-predict2.5 目录获取代码示例。 支持的卡型:PNV6,HCCPNV6,H100,H800 |
通用框架
框架 | 镜像名称 | 多机分布式部署 | 镜像描述 |
PYTORCH | pytorch2.1.0-py310 | 不支持 | 深度学习框架,适用于 CV/NLP 场景模型部署,GPU 版 |
PYTORCH | pytorch1.9.0-py38(gpu) | 不支持 | 深度学习框架,适用于 CV/NLP 场景模型部署,GPU 版 |
PYTORCH | pytorch1.9.0-py38(cpu) | 不支持 | 深度学习框架,适用于 CV/NLP 场景模型部署,CPU 版 |
PYTORCH | pytorch1.12.0-py38(gpu) | 不支持 | 深度学习框架,适用于 CV/NLP 场景模型部署,GPU 版 |
PYTORCH | alpamayo-inference | 不支持 | 支持 Alpamayo-R1-10B 自动驾驶模型推理 |
TENSORFLOW | tfserving2.4 | 不支持 | tfserving2.4镜像 |
TENSORFLOW | tfserving1.15 | 不支持 | tfserving 1.15镜像 |
TENSORFLOW | tensorflow2.4-py38(gpu) | 不支持 | tfserving2.4 镜像 python+gpu 版本 |
TENSORFLOW | tensorflow2.4-py38(cpu) | 不支持 | tfserving2.4 镜像 python 无 gpu 版本 |
TENSORFLOW | tensorflow1.15-py37(gpu) | 不支持 | tfserving1.15 镜像 python+ gpu 版本 |
TENSORFLOW | tensorflow1.15-py37(cpu) | 不支持 | tfserving1.15 镜像 python 无 gpu 版本 |
DETECTRON2 | detectron2-py38(gpu) | 不支持 | 目标检测与分割库,适用于工业领域下的目标检测/目标分割、视频分析等场景 |
ONNX | onnx1.11.1-py38(gpu) | 不支持 | 深度学习框架,适用于跨框架模型转换部署(如 PyTorch/TensorFlow 模型转为统一格式),GPU 版 |
ONNX | onnx1.11.1-py38(cpu) | 不支持 | 深度学习框架,适用于跨框架模型转换部署(如 PyTorch/TensorFlow 模型转为统一格式),CPU 版 |
MMDETECTION | mmdetection1.4.8-py38(gpu) | 不支持 | 目标检测与分割库,由 OpenMMLab 开发 |
TRITON | 23.10-py3-trtllm-0.7.1 | 不支持 | triton + trtllm 推理镜像(0.7.1版本的 trtllm) |
PMML | jpmml-py38 | 不支持 | 传统机器学习推理框架 |