Loading [MathJax]/jax/input/TeX/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >超线程SMT究竟可以快多少？(AMD Ryzen版 )

超线程SMT究竟可以快多少？(AMD Ryzen版 )

Linux阅码场

发布于 2021-10-26 08:51:05

发布于 2021-10-26 08:51:05

3.3K10

代码可运行

举报

文章被收录于专栏：LINUX阅码场LINUX阅码场

运行总次数：0

代码可运行

昨天我们用Intel I9的10核，每个核2个threads的机器跑了内核的编译:

超线程SMT究竟可以快多少？

今天，我换一台机器，采用AMD Ryzen。

默认情况16核，每个核2个threads，共32个CPUs：

下面编译内核：

大约需要53秒。记得昨天用Intel I9 10核20线程需要2分钟30秒左右。

再来一遍：

这说明make clean, drop_caches后时间也差不多。51秒，53秒左右的正常抖动范围。

现在我们关闭smt，只保留16个CPU：

具体的关闭方法就是：

sudo sh -c 'echo off > /sys/devices/system/cpu/smt/control'

这样只剩下16个CPU，下面来编译：

时间57秒，相对于51、53秒，速度下降不到10%。

这说明超线程SMT对编译内核这个workload的性能的提升绝对没有达到100%，甚至都没有达到10%。

我们现在重新开启超线程：

 sudo sh -c 'echo on > /sys/devices/system/cpu/smt/control

看一下哪个CPU和哪个CPU是thread sibling：

看起来CPU0和CPU16是一对，CPU1和CPU17是一对,依次类推。

刚才我们关闭SMT是把CPU16-CPU31全关了，只留下每对里面的1个CPU，也就是留下了CPU0-CPU15。

在开启SMT的时候（假设蓝色和红色是一个CORE里面的两个CPU）：

在关闭SMT的时候，等于每对里面只留1个CPU：

现在我们换一种关法，一对对关，只留下8对，也就是8个core：

指令如下：

实现效果如下：

再重新编译内核：

现在耗时是1分21秒，相对于所有CPU全开，下降了很多，时间增大了59%，当然没有达到2倍。

再想想昨天的Intel I9，关闭5个完整核耗时是3分10秒，全开10核是2分30秒，Intel一半核工作和所有核同时工作的差距远不如AMD那么明显。

所以可以看出，就内核编译这个workload而言，AMD的16core相对于8core，性能的scale会更加成正比。当然AMD开关SMT，对内核编译这个workload而言，影响小于10%，而Intel I9的影响有14%。

很多童鞋昨天留言，说编译内核有一定的IO bound，另外提到link阶段是单线程，还有的童鞋说是Intel Turbo的影响，这些我们都认为是有一定道理的。但是，我始终坚信，profiling是检验猜想的唯一标准，后面有空再写一篇文章来profiling一些究竟是为什么。

这到底是为什么？牙膏厂的多核scalability究竟是不是骗纸？还是按摩店的部分核没有Intel部分核的威猛模式？「元芳，你怎么看？」

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-10-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Linux阅码场微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

1 条评论

热度

最新

2024-12-26

为什么我的显示不支持呢，notsupport，有开启的方法吗？

为什么我的显示不支持呢，notsupport，有开启的方法吗？

回复回复点赞举报

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

超线程SMT究竟可以快多少？

默认情况下是Intel I9，10核，每个核2个threads，共20个CPUs：

Linux阅码场

2021/10/26

1.4K0

超线程SMT究竟可以快多少？（斐波那契版）

缓存腾讯云测试服务

宋老师的SMT测试很有意思，但是编译内核涉及的因素太多了，包括访问文件系统等耗时受到存储器性能的影响，难以估算，因此很难评判SMT对性能的提升如何。

Linux阅码场

2021/10/26

9700

说到超线程技术，大家应该都不陌生了，Intel早在2002年推出的Northwood奔腾4 HT处理器就把这一技术带入到消费级市场，虽然随后的酷睿2处理器超线程被抛弃，不过到了2008年推出的Nehalem架构Core i7处理器又把超线程技术带回到市场上，并一直沿用至今，现在的Core i7/i3、部分奔腾与Atom、还有移动版的双核Core i5与Core M处理器都有超线程技术，AMD最新推出的Ryzen系列除最低端的Ryzen 3外都带有SMT多线程技术，与Intel的超线程技术类似。

233333

2021/11/08

1.5K0

业界 | 英特尔9代酷睿CPU正式发布：制程不变，超线程被砍

在英特尔今天发布的众多公告中，最重要的一条就是该公司发布了第九代酷睿处理器，在英特尔主流消费平台上提供多达 8 个内核。该处理器与当前的 Coffee Lake 和 Z370 平台兼容，但也配有新的 Z390 芯片组和相关主板。此次发布的亮点是 8 核酷睿 i9，包括额定功率为 95W TDP 的 5.0GHz turbo 酷睿 i9-9900K。

机器之心

2018/10/22

9040

业界 | 英特尔9代酷睿CPU正式发布：制程不变，超线程被砍

这代英特尔赢了？ 12代性能碾压AMD Zen 3，但功耗1.5倍、温度爆表

amd 内核线程效率性能

---- 新智元报道编辑：小咸鱼好困【新智元导读】Intel最新的12代Alder Lake i9-12900K碾压了AMD的Ryzen 9 5950X！最新的桌面CPU采用了类似于ARM CPU中的「大-小」混合设计。可以说是几年来第一次，Intel不仅成功地超越了自己的上一代产品，而且还几乎全面超越了AMD最强的消费级CPU。 11月4号，Intel第12代酷睿处理器Alder Lake正式上市开售！ Intel第12代Alder Lake芯片将首次将类似ARM的混合「大小核」架构应用

新智元

2023/05/22

4550

这代英特尔赢了？ 12代性能碾压AMD Zen 3，但功耗1.5倍、温度爆表

高中低端全面领先英特尔：AMD还要发布64核Ryzen CPU

在主流级别上，AMD 的 12 核与 16 核 CPU Ryzen 9 3900x 与 3950X 的线程数量达到了英特尔 Core i9-9900 的两倍，在游戏和工作站上都成为了更好的选择。为了应对竞争，英特尔以 999 美元的价格推出了 10 代酷睿 i9-10980X，价格仅为之前 9980XE 的一半。然而，尽管价格仅为 750 美元，但 Ryzen 3950X 在大多数测试中仍能与 i9-10980X 保持同水平。

机器之心

2019/12/06

6500

英特尔12代酷睿性能曝光：单核性能超锐龙27%

测试服务内核芯片性能

机器之心报道编辑：泽南 12 代酷睿用上了新架构加 10 纳米制程，提升大到反杀 AMD。当然想用还得换主板。英特尔即将发布的 12 代酷睿是个什么水平？最近，有关新旗舰处理器 i9 的评测结果浮出水面，看起来在这一代英特尔终于恢复了领先位置。 Intel Core i9 12900K 单核得分比 AMD Zen 3 最好的锐龙 9 5950X 高 27%，也比目前英特尔自家的旗舰芯片 i9-11900K 高了足有 21％。在今年 8 月英特尔架构日活动中这家公司重申，Alder Lake 将提供最多

机器之心

2023/03/29

4200

英特尔12代酷睿性能曝光：单核性能超锐龙27%

英特尔CPU又曝新漏洞，AMD或也遭殃

研究人员再次发现英特尔CPU的一项漏洞，这个代号“PortSmash”的问题能够从并行的CPU或内存中泄露保密数据，AMD产品也被怀疑存在同样的漏洞。

新智元

2018/12/07

3940

CPU避坑指南——1、CPU基础知识-型号

游戏 cpu 高性能线程性能

插槽类型：要选择与主板兼容的CPU插槽类型，例如Intel主板需要选用Intel CPU，AMD主板需要选用AMD CPU。

红目香薰

2023/10/11

8280

CPU避坑指南——1、CPU基础知识-型号

「地表最强」苹果M1 Max跌下神坛！单、多核性能跑分均不敌英特尔12代酷睿

腾讯云测试服务 https 网络安全

英特尔第12代Alder Lake芯片将首次将类似ARM的混合「大小核」架构应用于桌面x86电脑，该架构结合了较大的高性能内核与较小的高效内核。

新智元

2021/11/23

1.4K0

14-Linux 介绍与工具使用（十一：cpu、核心、线程、内存）

https http 编程算法网络安全

linux 的cpu 信息及线程相关的信息储存于/proc/cpuinfo 文件中，我们可以根据名称查看。参考：https://www.cnblogs.com/yoyoblogs/p/11289981

北野茶缸子

2021/12/17

5060

14-Linux 介绍与工具使用（十一：cpu、核心、线程、内存）

Linux内核调度器源码分析 - 初始化

负载均衡负载均衡缓存文件存储缓存

赖滨，腾讯云高级工程师，7+年专注于操作系统相关技术。目前负责腾讯云原生OS的研发，以及OS/虚拟化的性能优化工作。导语调度器(Scheduler)子系统是内核的核心子系统之一，负责系统内 CPU 资源的合理分配，需要能处理纷繁复杂的不同类型任务的调度需求，还需要能处理各种复杂的并发竞争环境，同时还需要兼顾整体吞吐性能和实时性要求(本身是一对矛盾体)，其设计与实现都极具挑战。为了能够理解 Linux 调度器的设计与实现，我们将以 Linux kernel 5.4 版本(TencentOS Serve

腾讯云原生

2021/05/13

1.9K0

英特尔开启服务器CPU之战

服务器内核芯片性能 cpu

由于英特尔的代工厂仍在努力赶上竞争对手台积电提供的工艺和封装，英特尔的服务器 CPU 产品线必须“利用”代工厂的现有资源，并创造出具有适当性能和价格组合的产品，以与 X86 领域的 CPU 竞争对手 AMD 和正在数据中心创建新 CPU 层的 Arm 集团竞争。

芯智讯

2024/06/07

1540

Linux 系统性能评测基准系统配置及其原理

kernel https 网络安全 linux tcp/ip

开发人员在高性能系统的性能调优过程中，经常会碰到各种背景的噪声干扰，从而使得收集的数据不够精确。本文主要从CPU 以及Linux操作系统的角度来分析各种噪声的来源以及消除方法。最终的目标是搭建基准平台，在特定的cpu上实现”0”干扰。

Linux阅码场

2020/03/20

2K0

CPU江湖：热血AMD死磕霸主英特尔

安全网络安全硬件开发

编者按：英特尔和AMD是CPU界公认的两大王者，双方在CPU市场鏖战数十年，后起之秀AMD频繁对英特尔的统治地位发起进攻。AMD的成长史，大概是一个小公司持续挑战这个星球上实力最强的芯片公司英特尔的故事。2017年，AMD Zen架构和锐龙5000芯片让AMD再次进入历史性辉煌时代，AMD正逐步蚕食着英特尔的市场份额；去年，英特尔也推出了目前性能最高的、基于Alder Lake架构的系列芯片。 CPU江湖风云突变，谁将笑傲天下未有定数。不过，作为消费者和产业观察者，我们很高兴看到 CPU 领域的这些有趣

SDNLAB

2022/03/24

8320

为什么会出现cpu使用率偶数核比奇数核高

linux kernel 任务调度负载均衡

偶有云上用户反馈云主机cpu使用率偶数核比奇数核高的现象，比如cpu0高，cpu1低，cpu2高，cpu3低依次循环，这里的原因是开启超线程后一个物理core包含两个超线程，比如vcpu0/vcpu1是一个物理core的两个超线程，vcpu2/vcpu3也是一个物理core的两个超线程，抛开cpu wake_affine因素,linux内核在调度选核时如果有空闲的物理core会优先选择两个超线程都是空闲的物理core来运行进程以实现core间负载均衡，如果没有空闲的物理core也会选择最空闲的调度组。以此问题为引本文尝试分析下linux内核的调度选核策略，文中涉及的实验软硬件环境基于tencentos 5.4内核和Intel x86服务器。

cdh

2024/04/22

5660

单线程性能提升60%！龙芯3A6000流片成功：与十代酷睿四核处理器相当

服务器架构软件性能研发

8月2日消息，龙芯中科近日宣布，基于龙芯自主的LoongArch架构的新一代四核处理器龙芯3A6000流片成功，代表了我国自主桌面CPU设计领域的最新里程碑成果。

芯智讯

2023/09/27

4820

单线程性能提升60%！龙芯3A6000流片成功：与十代酷睿四核处理器相当

案例 | 腾讯广告 AMS 的容器化之路

容器云服务器 http

张煜，15年加入腾讯并从事腾讯广告维护工作。20年开始引导腾讯广告技术团队接入公司的TKEx-teg，从业务的日常痛点并结合腾讯云原生特性来完善腾讯广告自有的容器化解决方案。项目背景腾讯广告承载了整个腾讯的广告流量，并且接入了外部联盟的请求，在所有流量日益增大的场景下，流量突增后如何快速调配资源甚至自动调度，都成为了广告团队所需要考虑的问题。尤其是今年整体广告架构（投放、播放）的条带化容灾优化，对于按需分配资源、按区域分配资源等功能都有着更强的依赖。在广告内部，播放流系统承载了整个广告播出的功能，这

腾讯云原生

2021/06/25

1.7K0

CES开幕：AMD Zen 4震撼全场，移动版酷睿亮相，英伟达发布3090Ti

图像处理缓存 https 网络安全硬件开发

当地时间 1 月 4 日，2022 年国际消费类电子产品展览会（CES）在拉斯维加斯拉开帷幕。受疫情影响，本次展会采取拉斯维加斯现场展示和线上直播结合的形式举办。

机器之心

2022/02/18

6650

CES开幕：AMD Zen 4震撼全场，移动版酷睿亮相，英伟达发布3090Ti

全球首款7纳米GPU芯片问世，AMD抢发没给英伟达机会

人工智能深度学习

新智元报道来源：theinquirer.net等编辑：文强【新智元导读】AMD今天公开展示了全球首款7纳米制程的GPU芯片原型，含有32GB的高带宽内存，专为人工智能和深度学习设计，用于工作

新智元

2018/06/22

7780

相关推荐

超线程SMT究竟可以快多少？

更多 >

Linux阅码场0

LV.0

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

这到底是为什么？牙膏厂的多核scalability究竟是不是骗纸？还是按摩店的部分核没有Intel部分核的威猛模式？「元芳，你怎么看？」

加入讨论

的问答专区 >

1合伙人擅长4个领域

相关课程

一站式学习中心 >

Python教程-Django框架快速入门到实战

EMR实时数仓建设实战营

大数据解决方案

弹性 MapReduce

本文部分代码块支持一键运行，欢迎体验

本文部分代码块支持一键运行，欢迎体验