TensorRT-LLM：开启Jetson平台上大语言模型推理的新篇章

GPUS Lady

发布于 2024-11-28 14:06:19

2090

TensorRT-LLM for Jetson是针对Jetson平台优化的高性能大语言模型（LLM）推理库，专为Jetson AGX Orin等高性能计算设备设计。该库集成了先进的量化技术、注意力核函数以及分页键值（KV）缓存，旨在提供高效的LLM推理性能。

01、 核心特性

高级量化：TensorRT-LLM支持INT4等高级量化技术，能够显著降低模型大小和推理延迟，同时保持较高的推理精度。
注意力核函数：针对LLM中常用的注意力机制进行了优化，提高了计算效率。

02、部署环境

TensorRT-LLM for Jetson的部署需要满足以下环境要求：

硬件：支持Jetson AGX Orin设备，其他Orin设备的支持正在测试中。
软件：需要安装JetPack 6.1（包含CUDA、cuDNN和TensorRT），并推荐使用NVMe SSD以确保足够的存储空间。此外，还需要安装一些必要的依赖项，如Python3-pip、libopenblas-dev等。

03、 安装与配置

安装JetPack 6.1：通过NVIDIA SDK Manager安装JetPack 6.1，并确保将Jetson设备锁定在MAX-N时钟频率。
安装依赖项：更新系统软件包，并安装所需的依赖项，如Python3-pip、libopenblas-dev、git-lfs等。此外，还需要安装cusparselt库和特定版本的numpy。
安装TensorRT-LLM：从TensorRT-LLM的GitHub仓库中克隆v0.12.0-jetson分支，并按照提供的指南进行安装和配置。

04、模型转换与推理

模型转换：TensorRT-LLM提供了模型转换工具，可以将LLM模型转换为TensorRT-LLM引擎。例如，可以使用提供的脚本将Llama模型转换为TensorRT-LLM引擎，并应用INT4量化。
推理性能：转换后的模型可以在Jetson AGX Orin设备上高效运行，支持多种输入和输出长度配置。通过参考基准性能测试结果，可以了解到TensorRT-LLM在不同配置下的解码速度和上下文处理时间。

05、开放接口与扩展性

TensorRT-LLM提供了Python和C++编程接口，方便开发者进行集成和扩展。此外，还提供了一个示例服务器端点，支持OpenAI协议，使得TensorRT-LLM可以轻松地替换其他本地或云端的模型后端。这意味着开发者可以使用标准的openai-python包来与TensorRT-LLM进行交互，从而实现跨语言和跨设备的聊天完成请求。

06、结论

TensorRT-LLM for Jetson是一个高性能的大语言模型推理库，专为Jetson AGX Orin等高性能计算设备设计。通过先进的量化技术、注意力核函数以及分页KV缓存等特性，TensorRT-LLM能够提供高效的推理性能，并支持多种编程接口和扩展性选项。这为开发者在Jetson平台上进行大语言模型推理提供了强有力的支持。

资料地址：https://www.jetson-ai-lab.com/tensorrt_llm.html

https://github.com/NVIDIA/TensorRT-LLM/blob/v0.12.0-jetson/README4Jetson.md#3-reference-memory-usage

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-11-27，如有侵权请联系 cloudcommunity@tencent.com 删除

性能