腾讯云TACO-LLM加速模块助力荣耀AI推理吞吐提升2倍

原创

IT前沿资讯站

发布于 2026-05-01 00:02:06

960

随着DeepSeek等大模型需求激增，企业面临动辄数百万的部署成本压力，同时在固定服务器资源下，响应延迟和系统繁忙成为关键瓶颈。荣耀作为全球领先的AI终端生态公司，亟需在控制成本的同时提升交互体验，确保人机交互的实时性与稳定性。

腾讯云为荣耀提供基于TencentOS Server AI底座的解决方案，集成TACO-LLM加速模块。该模块采用投机采样技术，优化推理流程，避免逐字计算的低效模式，提升GPU算力利用率。针对高频交互场景，模块进行了定向优化，压缩推理耗时，增强系统调度能力。

在荣耀的实际应用中，TACO-LLM模块使DeepSeek推理速度在A平台提升70%，在B平台提升20%。在DeepSeek-R1满血版场景下，相较于原始性能：

TTFT（首Token延迟）P95响应时间最高降低6.25倍
吞吐量提升2倍
端到端延迟降低100%undefined在社区sglang场景下，TTFT P95响应时间最高降低12.5倍，模型运行稳定性与调度效率显著改善。

腾讯云通过TencentOS Server AI底座提供全栈优化，包括内核性能强化、GPU算力监控（基于Prometheus框架）及qGPU分切管理，确保AI负载的高效运行。TACO-LLM与TACO-Train框架协同，覆盖推理与训练场景，为AI模型提供可持续的算力支持与能效管理。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度