点击蓝字 关注我们
在数据大爆发的时代背景下,云计算承载的业务规模呈现指数级增长,软件和硬件的结合成为刚需。未来,软硬件一体化技术会进一步发展,为用户提供更强壮的基础设施平台,提升云计算的性能、提高资源利用率,最终为用户提供稳定、更具性价比的服务。
12月20日,在腾讯2020 Techo Park开发者大会“下一代软硬一体化的云计算基础设施”分论坛上,除了发布两款全新服务器自研硬件产品,在云计算软硬一体化的大趋势下,腾讯云还重点分享了在存储、网络和运维等方面的具体实践,为业界提供了更多的参考。
随着磁存储技术和工艺制程的发展,硬盘容量越来越大,故障率和故障恢复时长也随之变长,这会对云上开发带来很大的稳定性挑战。为了给开发者提供更为稳健的云服务,腾讯云通过对硬盘来料质量,运营监控和技术创新等手段进行智能化运营。
腾讯云服务器运营中心专家工程师牛犇介绍,在来料质量方面,腾讯云采取基于业务模型的来料筛选机制,通过云业务模型与硬盘底层参数建模,分析参数统计分布,定制化筛选标准,使得硬盘年化故障率显著降低至1/5。在运营监控方面,腾讯云的硬盘智能监控系统通过多维度硬盘健康评分和AI 故障预测,可使硬盘故障提前识别率提升至80%。
(腾讯云服务器运营中心专家工程师牛犇)
目前,腾讯数据中心正在运行的服务器超过100万台,经统计,硬件故障导致的系统宕机中,内存故障占比排第一。腾讯云星星海实验室副总监李志高认为,解决数据中心服务器宕机率高的关键路径是降低内存故障率和减少内存故障导致的宕机。
(腾讯云星星海实验室副总监李志高)
腾讯云通过优化算法进行内存筛选、优选X4颗粒内存条、使能多种内存RAS特性等方式大大提升了服务器的可靠性。此外,腾讯云也是业内首家在云计算领域大规模研发部署MCA Recovery技术的云服务商,该技术能够有效缓解不可纠正错误的影响,减少40%以上内存故障导致的宕机。
腾讯云的规模正在飞速发展,云网络内部网关及边界网关带宽性能需求也伴随着腾讯云的规模在快速提升,云网络面临着性能压力、运维压力和可运维性方面的挑战。为此,腾讯云通过可编程芯片硬件的解决方案使得网络带宽提升的同时,成本缩减约为原来的三十分之一。
传统网关升级通过冷升级的方式,依赖上联交换机的hash能力和underlay网络路由收敛时间,而腾讯云可编程芯片硬件解决方案通过单节点热升级的方式,onl控制面把配置按照数据面格式固化在内存,利用tonfino dma控制器,升级后reload配置,整个热升级过程可以控制在20ms之内。
腾讯云网络产品中心专家工程师陈曦表示,目前该项解决方案已经应用在腾讯云多个高性能的业务场景之中,除了腾讯内部业务大量上云之外,也即将应用在用户idc和本地专有云互通、用户idc数据迁移上云等。
(腾讯云网络产品中心专家工程师陈曦)
而在网络存储虚拟化软硬协同方面,搭配腾讯云自研智能网卡能实现云主机镜像(公有镜像,自定义镜像)全兼容,兼容现有腾讯云云主机各类镜像包括linux和windows。腾讯云容器服务 TKE 借助智能网卡推出下一代容器网络方案。
据腾讯云网络产品中心研发副总监王亮介绍,该方案可无缝的支持和存量的云主机进行相互热迁移,能快速进行云主机和容器服务部署,并且依托软硬件协同实现的高密度弹性网卡,支持一个 Pod 独占一张弹性网卡,不再经过节点网络协议栈(default namespace),极大缩短了容器访问链路,缩短了访问时延,并使 PPS 可以达到整机上限。除此之外,方案还实现了短链接场景下 QPS 相比之前容器网络方案(策略路由方案,网桥方案)提升 50%-70%;长链接场景下 QPS 提升 40%-60%。
(腾讯云网络产品中心研发副总监王亮)
以全新自研服务器产品为核心,围绕网络、存储和运维等细分领域提供多样解决方案,腾讯云正通过软硬一体化的方式,打造面向下一代的云计算基础设施,为各行各业提供更优质的云计算服务,促进全社会的数字化转型升级。
更多关于腾讯自研硬件的资讯,欢迎关注腾讯云星星海公众号!