TensorRT-LLM for Jetson是针对Jetson平台优化的高性能大语言模型(LLM)推理库,专为Jetson AGX Orin等高性能计算设备设计。该库集成了先进的量化技术、注意力核函数以及分页键值(KV)缓存,旨在提供高效的LLM推理性能。
01、 核心特性
02、部署环境
TensorRT-LLM for Jetson的部署需要满足以下环境要求:
03、 安装与配置
04、模型转换与推理
05、开放接口与扩展性
TensorRT-LLM提供了Python和C++编程接口,方便开发者进行集成和扩展。此外,还提供了一个示例服务器端点,支持OpenAI协议,使得TensorRT-LLM可以轻松地替换其他本地或云端的模型后端。这意味着开发者可以使用标准的openai-python包来与TensorRT-LLM进行交互,从而实现跨语言和跨设备的聊天完成请求。
06、结论
TensorRT-LLM for Jetson是一个高性能的大语言模型推理库,专为Jetson AGX Orin等高性能计算设备设计。通过先进的量化技术、注意力核函数以及分页KV缓存等特性,TensorRT-LLM能够提供高效的推理性能,并支持多种编程接口和扩展性选项。这为开发者在Jetson平台上进行大语言模型推理提供了强有力的支持。
资料地址:https://www.jetson-ai-lab.com/tensorrt_llm.html
https://github.com/NVIDIA/TensorRT-LLM/blob/v0.12.0-jetson/README4Jetson.md#3-reference-memory-usage