
随着荣耀终端AI功能的日益丰富,其后台推理平台需要同时处理多个任务,面临大模型调用频繁、高并发请求的压力。这对底层AI基础设施的系统稳定性和推理效率提出了更高要求,尤其在需要“即时反馈”的交互类功能场景下,低延迟响应成为关键瓶颈。
腾讯云为荣耀提供了基于 TencentOS Server AI 底座的 TACO-LLM 大语言模型推理加速引擎。该引擎核心采用投机采样技术,通过让模型先进行“大胆预测”再快速修正的方式,优化传统逐字计算的低效流程,充分释放GPU算力潜力,实现高吞吐与低时延的平衡。
在荣耀的实际业务场景中(主要使用 DeepSeek 1.5@78% 和 DeepSeek 1.2@70% 模型),TACO-LLM模块带来显著性能改善:
“TACO-LLM加速模块提升了推理效率和系统稳定性。” —— 腾讯云技术团队
腾讯云通过TencentOS Server AI底座的安全加固与性能优化,结合TACO-LLM加速引擎的针对性技术方案,为荣耀提供了高性能、高稳定的AI推理基础设施。该合作验证了腾讯云在解决大规模模型并发推理、降低延迟、提升资源利用率方面的技术能力,为智能设备领域的AI应用创新提供了可靠支撑。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。