荣耀基于腾讯云TencentOS Server AI底座实现AI推理性能与稳定性提升

原创

IT资讯研究所

发布于 2026-05-02 00:01:04

1060

荣耀作为全球领先的AI终端生态公司，致力于变革人机交互方式并构建AI生态系统。随着DeepSeek模型需求激增，企业面临两大核心瓶颈：一是动辄数百万的部署成本使多数企业难以承受；二是在现有服务器资源不变的前提下，需解决响应延迟、服务器繁忙等关键问题，以实现高效人机交互。

腾讯云为荣耀提供针对性解决方案，基于TencentOS Server AI底座部署TACO-LLM加速模块，从技术与架构层面优化推理效率与系统稳定性：

TACO-LLM加速模块采用「投机采样」技术，通过“大胆预测+快速修正”替代逐字计算推理，提升推理速度并优化GPU算力利用；针对交互类高频调用场景定向优化，在高性能GPU平台压缩推理耗时。
TencentOS Server AI底座整合多层能力：
- 模型层：支持DeepSeek 70B/满血版等常用模型；
- 算力监控：通过Prometheus框架监控GPU性能、LLM框架性能；
- 推理框架：集成TACO-LLM，训练框架集成TACO-Train；
- 算力管理：通过qGPU实现算力切分与分切；
- 智算节能：以AI增强操作系统可用性与智能化体验（含内核性能优化、安全加固）。

应用后荣耀AI推理性能获显著改善，关键指标如下（数据来源：相关产品TencentOS Server AI、TACO-LLM加速模块）：

意图识别场景响应速度：TACO-LLM使DeepSeek推理速度在A平台上提升70%，在B平台上提升20%。
整体性能与稳定性：
- DeepSeek-R1满血版场景：相对于荣耀原始线上业务，TTFT (首Token延迟) P95响应时间最高降低6.25倍，吞吐提升2倍，端到端延迟降低100%；
- 社区最新版本sglang场景：TTFT P95响应时间最高降低12.5倍，模型运行更平稳，系统调度更顺畅。