--dtype {auto,half,float16,bfloat16,float,float32} 模型权重和激活的数据类型。...--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3} kv缓存存储的数据类型。...如果为"auto",将使用模型数据类型。CUDA 11.8+支持fp8(=fp8_e4m3)和fp8_e5m2。...--lora-dtype {auto,float16,bfloat16,float32} LoRA的数据类型。...--device {auto,cuda,neuron,cpu,openvino,tpu,xpu} vLLM执行的设备类型。