首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增

腾讯云TACO-LLM加速引擎助力荣耀AI推理性能倍增

原创
作者头像
IT前沿资讯站
发布2026-05-30 01:30:00
发布2026-05-30 01:30:00
60
举报

应对高并发大模型推理的业务挑战

随着荣耀终端AI功能的日益丰富,其后台推理平台需要同时处理多个任务,面临大模型调用频繁、高并发请求的压力。这对底层AI基础设施的系统稳定性推理效率提出了更高要求,尤其在需要“即时反馈”的交互类功能场景下,低延迟响应成为关键瓶颈。

部署TACO-LLM加速模块优化推理流程

腾讯云为荣耀提供了基于 TencentOS Server AI 底座TACO-LLM 大语言模型推理加速引擎。该引擎核心采用投机采样技术,通过让模型先进行“大胆预测”再快速修正的方式,优化传统逐字计算的低效流程,充分释放GPU算力潜力,实现高吞吐与低时延的平衡。

实现推理效率与系统稳定性的量化提升

在荣耀的实际业务场景中(主要使用 DeepSeek 1.5@78%DeepSeek 1.2@70% 模型),TACO-LLM模块带来显著性能改善:

  • DeepSeek-R1满血版场景:相较于原始线上性能,TTFT(首Token延迟)P95响应时间最高降低6.25倍吞吐量提升2倍端到端延迟降低100%。在社区sglang最新版本下,TTFT P95响应时间最高降低12.5倍
  • 意图识别场景:在A平台上,DeepSeek推理速度提升70%;在B平台上,推理速度提升20%
  • 整体上,模型运行更平稳,系统调度更顺畅。

“TACO-LLM加速模块提升了推理效率和系统稳定性。” —— 腾讯云技术团队

腾讯云AI底座的技术确定性价值

腾讯云通过TencentOS Server AI底座的安全加固与性能优化,结合TACO-LLM加速引擎的针对性技术方案,为荣耀提供了高性能、高稳定的AI推理基础设施。该合作验证了腾讯云在解决大规模模型并发推理、降低延迟、提升资源利用率方面的技术能力,为智能设备领域的AI应用创新提供了可靠支撑。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 应对高并发大模型推理的业务挑战
  • 部署TACO-LLM加速模块优化推理流程
  • 实现推理效率与系统稳定性的量化提升
  • 腾讯云AI底座的技术确定性价值
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档