VGG16上的Titan X Pascal在我的机器上比在基准测试中慢得多 - 腾讯云开发者社区

文章/答案/技术大牛

发布

dotnet C# 在不同的机器 CPU 型号上的基准性能测试

本文将记录我在多个不同的机器上，在不同的 CPU 型号上，执行相同的我编写的 dotnet 的 Benchmark 的代码，测试不同的 CPU 型号对 C# 系的优化程度。...本文非严谨测试，数值只有相对意义以下是我的测试结果，对应的测试代码放在 github 上，可以在本文末尾找到下载代码的方法我十分推荐你自己拉取代码，在你自己的设备上跑一下，测试其性能。...本文的测试重点不在于 C# 系的相同功能的多个不同实现之间的性能对比，重点在于相同的代码在不同的 CPU 型号、内存、系统上的性能差异，正如此需求所述，本文非严谨测试，测试结果的数值只有相对意义数组创建...，可以看到在 Int32[10000] 的测试数据集里面，轻松就可以看到 Intel 比兆芯快了 10 倍，如下图所示在如下图的对比 Intel 和兆芯的对较大的数组进行拷贝的性能，可以看到...但在我的测试里面飞腾腾锐的性能比兆芯快，大概均值性能差距是 2 倍左右，如以下对比方法数组长度 Intel 兆芯飞腾腾锐 Intel比兆芯兆芯比Intel 飞腾比Intel 兆芯比飞腾 CopyByFor

7131 0

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

例如，在 VGG16 训练测试中，TensorFlow 的训练速度比 MXNet 快了 49%，PyTorch 比 MXNet 快了 24%。...TensorFlow 拥有内建的性能测试基准，包含两块建立在 Tesla 架构上的 GPU——英伟达 P 100 和英伟达 K80[3]。...图 5.4.3：训练阶段的 GPU 利用率。 TensorFlow 在 Word2Vec 训练中的 GPU 利用率比其他框架高得多。...TensorFlow 消耗的 CPU 比其他两个框架多得多，在图 6.1.5 中，混合精度的 TensorFlow 利用 CPU 的比例约为 66%。...总结在此报告中，我们在最新的 Titan RTX GPU 上评估了三个主流的机器学习框架。

1.7K5 0

您找到你想要的搜索结果了吗？

是的

没有找到

深度学习的GPU：深度学习中使用GPU的经验和建议

如果你想在一台机器上并行，那么你的选择主要是CNTK，Torch，Pytorch。这些库产生良好的加速（3.6x-3.8x），并在一台机器上具有预定义的并行算法，最多支持4个GPU。...例如，一个GTX 980与0.35 Titan X Pascal一样快，或者换句话说，Titan X Pascal几乎是GTX 980的三倍。...请注意，我自己并没有所有这些卡，我没有在所有这些卡上运行深入的学习基准。比较是从卡片规格与计算基准的比较中得出的（一些加密货币挖掘的情况是与深度学习在计算上相当的任务）。所以这些是粗略的估计。...例如，GTX 1080 Ti上的小型LSTM（128个隐藏单元;批量大小> 64）不会比在GTX 1070上运行速度快得多。...GTX 1060比普通的Titan X慢，但在GTX 980的性能和eBay价格上都是可比的。就爆炸而言，10系列设计得非常好。

3.1K11 0

MMDetection学习系列（2）——SSD深度探索与实战指南

对于300×300的输入，SSD在Nvidia TitanX上以59 FPS的速度进行的VOC2007测试中实现了74.3%的mAP1；对于 512×512的输入，SSD实现了76.9%的mAP，超过了同类最先进的...这种方法自选择性搜索（Selective Search）工作以来，在对象检测基准测试中一直占据主导地位。...对于300×300的输入，SSD在VOC2007测试集上达到了74.3%的平均精度（mAP），在Nvidia Titan X上的速度为每秒59帧；对于512×512的输入，SSD的mAP达到了76.9%...VGG16是在ILSVRC CLS-LOC数据集上预训练过，为了更加适合目标检测，作者进行了适当扩展：(1) 借鉴DeepLab-LargeFOV思想，将VGG16的全连接层fc6和fc7转换成3x3卷积层...PASCAL VOC2012使用与VOC2007相同的设置，但在更大的数据集上进行训练和测试。SSD300和SSD512在VOC2012测试集上的表现与VOC2007测试集上观察到的性能趋势一致。

4101 0

Titan XP值不值？一文教你如何挑选深度学习GPU

、软件安装到基准测试，1700 美元深度学习机器构建指南）。...在今年 5 月，我在组装自己的深度学习机器时对市面上的所有 GPU 进行了评测。...值得注意的问题上代旗舰 Titan X Pascal 曾是英伟达最好的消费级 GPU 产品，而 GTX 1080 Ti 的出现淘汰了 Titan X Pascal，前者与后者有同样的参数，但 1080...我在之前的文章中对 GTX 1080 Ti 和 K40 进行了一些基准测试。1080 的速度是 K40 的 5 倍，是 K80 的 2.5 倍。.../）发现 P100 在每个基准中都比较落后。

1.2K7 0

开发 | 除了性价比排名，如何选购深度学习 GPU

所有这些迫使我在心酸沮丧中重写代码，并且没有单位测试。这过程极度漫长，堪称地狱般的经历。直到我的代码终于成功执行，但所有东西速度都很慢。...但不同架构之间，比如 Pascal GTX 1080 vs. Maxwell GTX Titan X，带宽并不能直接比较。这是由于不同的制造工艺对显存带宽的使用情况不同。...比如说，一个 GTX 980 的速度大约是 0.35 个 Titan X Pascal；或者，一个 Titan X Pascal 几乎比 GTX 980 快三倍。...AI科技评论提醒，我自己并没有所有这些显卡，我也并没有在每张显卡上做深度学习跑分评测。这些性能对比，是从显卡参数以及计算评测（与深度学习同一级别的计算任务，比如密码挖掘）中获得。...在这些领域，每一 GB 显存都有价值，而 Titan Xp 比 GTX 1080 Ti 多了 1GB。有了这两者，我不会推荐 Titan X (Pascal) 。

8.9K6 0

深度 | 英伟达深度学习Tensor Core全面解析

该能力首先由cuDNN 3支持并在Tegra X1的Maxwell架构中实现，随后原生半精度计算被引入Pascal架构并被称为“伪FP16”，即使用FP32 ALU处理成对的FP16指令，理论上可以使每个时钟的...当时人们关注的是推理能力，就像Titan V的“深度学习TFLOPS”一样，Titan X（Pascal）推出了“44 TOPS（新型深度学习推断指令）”。...在常见的第三方深度学习基准套件中，Fathom和TBD是更传统的基准测试套件，其测试针对特定框架和模型进行了配置，涵盖了许多不同的机器学习应用程序。...我们在Titan X（Maxwell）和Titan Xp（Pascal）上运行了64、512和1024的批尺寸，在Titan V运行了128、256和640的批尺寸。...顺带一提，虽然Titan V在第一个训练实现中不会使用Tensor Core，但凭借相对于Pascal的一般改进，Titan V在这个测试中的速度依然比Titan Xp快20％左右，同时系统峰值功耗也下降了大约

4.5K1 1

深度学习：FPGA VS GPU

他们的研究以最新的高性能英伟达Titan X Pascal 图形处理单元（GPU）为参照，评估了新兴的DNN算法在两代英特尔FPGA（英特尔Arria10和英特尔Stratix 10）上的表现。...相比之下，最新的Titan X Pascal GPU在FP32吞吐量方面的性能为11TFLOP/s。新兴的DNN算法：更深层的网络提高了准确度，但大大增加了参数数量和模型大小。...图4B显示了英特尔Stratix 10 FPGA和Titan X GPU在 ResNet-50上的性能和性能/瓦特比。...FPGA在研究测试中表现如何结果表明，就稀疏的DDN、Int6 DDN和二值化DDN而言，英特尔Stratix10 FPGA的性能（TOP /秒）比Titan X Pascal GPU分别高出10%、...在三进制ResNet上，Stratix 10 FPGA的性能比Titan X Pascal GPU高出60%，而性能/瓦特高出2.3倍。结果表明，FPGA有望成为加速下一代DNN 的首选平台。

2.1K8 0

玩深度学习选哪块英伟达 GPU？有性价比排名还不够！

所有这些迫使我在心酸沮丧中重写代码，并且没有单位测试。这过程极度漫长，堪称地狱般的经历。直到我的代码终于成功执行，但所有东西速度都很慢。...比如说，一个 GTX 980 的速度大约是 0.35 个 Titan X Pascal；或者，一个 Titan X Pascal 几乎比 GTX 980 快三倍。...AI 研习社提醒，我自己并没有所有这些显卡，我也并没有在每张显卡上做深度学习跑分评测。这些性能对比，是从显卡参数以及计算评测（与深度学习同一级别的计算任务，比如密码挖掘）中获得。...同样的，用四个小 GPU 比用一个大 GPU 要困难得多，因此小 GPU 出于劣势。...在这些领域，每一 GB 显存都有价值，而 Titan Xp 比 GTX 1080 Ti 多了 1GB。有了这两者，我不会推荐 Titan X (Pascal) 。

2.8K11 0

为啥在Matlab上用NVIDIA Titan V训练的速度没有GTX1080快？

在Matlab官方论坛上看到这个帖子，希望给大家带来参考有一天，有人在Matlab的论坛上发出了求救帖：楼主说：我想要加快我的神经网络训练，所以把GTX1080升级到Titan V，期望在性能上有很大的提高...但是，为啥我的1080正在碾压Titan V。我在alexnet上进行学习迁移（Transfer learning），并在相同的图像池中进行相同的设置。...很快就有大神回复：在我的迁移学习测试中，Titan V比K20c快5倍，比GTX1080快2倍，比Titan XP快1.3倍。这是运行在R2017b上。...大神建议：在WDDM模式下，Windows上的GeForce卡受到了OS的监控干扰的影响，特别是在内存分配的速度上。这使得它们在某些需要大量内存分配的功能上比在Linux上要慢得多。...nvidia-smi -i 1 -dm 1 重启大神分析说：在我自己的实验中，我发现在Windows上，Titan V比Linux更慢，但是我的Windows机器上CPU速度还要慢得多，所以可能就是因为这个原因

2.1K8 0

【干货】深度学习三大硬件+四大学习库基准测试对比，指标全面呈现

GPU基准测试：GeForce GTX 1080 vs Titan X(Maxwell) vs Titan X (Pascal) ?...基准测试工具在Neon上进行基准测试使用的是neon库中的脚本neon/tests/run_benchmarks.py，在Tensorflow上使用的是convnet-benchmarks和不加修改的脚本...基于GPU的测试结果训练基准测试使用四种GPU（Titan X Pascal, Titan X Maxwell, GeForce GTX 1080）进行一次前向迭代和反向迭代的总时间（越少越好）。...推论基准测试使用四种GPU（Titan X Pascal, Titan X Maxwell, GeForce GTX 1080）进行一次前向迭代的总时间（越少越好）。结果如下： ?...基准测试工具在Neon上进行基准测试使用的是neon库中的脚本neon/tests/run_benchmarks.py，在Tensorflow上使用的是convnet-benchmarks和不加修改的脚本

1.1K15 0

深度学习GeForce GTX 1080Titan X(Maxwell) Titan X (Pascal)比较

GPU基准测试：GeForce GTX 1080 vs Titan X(Maxwell) vs Titan X (Pascal) ?...基准测试工具在Neon上进行基准测试使用的是neon库中的脚本neon/tests/run_benchmarks.py，在Tensorflow上使用的是convnet-benchmarks和不加修改的脚本...基于GPU的测试结果训练基准测试使用四种GPU（Titan X Pascal, Titan X Maxwell, GeForce GTX 1080）进行一次前向迭代和反向迭代的总时间（越少越好）...推论基准测试使用四种GPU（Titan X Pascal, Titan X Maxwell, GeForce GTX 1080）进行一次前向迭代的总时间（越少越好）。结果如下： ?...基准测试工具在Neon上进行基准测试使用的是neon库中的脚本neon/tests/run_benchmarks.py，在Tensorflow上使用的是convnet-benchmarks和不加修改的脚本

7.3K5 0

FPGA 超越 GPU，问鼎下一代深度学习主引擎

GEMM是DNN中的关键操作。在低精度和稀疏DNN中，Stratix 10 FPGA 比 Titan X GPU的性能更好，甚至性能功耗比要更好。未来这类DNN可能会成为趋势。...图3A显示，带有多得多的DSP 数量的Intle Stratix 10 将提供比Intel Arria 10 更强大的FP32性能，和Titan X 的性能表现接近。...在性能/功耗比方面，从保守估计到激进估计，Intel Stratix 10 比 Titan X 要好2.3倍到4.3倍， FPGA如何在研究测试中堆叠结果表明，Intel Stratix 10 FPGA...的性能（TOP /秒）比稀疏的、Int6 和二进制DNN的GEMM上的 Titan X Pascal GPU分别提高了10％、50％和5.4倍。...在三进制 ResNet 上，Stratix 10 FPGA 的性能比Titan X Pascal GPU 提高了60％，而性能/功耗比好2.3倍。

1.1K5 0

深度学习中如何选择一款合适的GPU卡的一些经验和建议分享

例如，一个普通的GTX Titan X在eBay上的售价约为550美元。另一个需要考虑的重要因素是，并不是所有的架构都与cuDNN兼容。...例如，一个GTX 980与0.35 Titan X Pascal一样快，或者换句话说，Titan X Pascal几乎是GTX 980的三倍。...GTX 1070比普通的GTX Titan X（Maxwell）便宜一些。...GTX 1060比普通的Titan X慢，但与GTX 980具有可比的性价比。就综合性价比而言，10系列设计得非常好。...我不推荐GTX 970，因为它很慢，即使在某些限制条件下也是相当昂贵的（在eBay上150美元），并且存在与卡启动相关的内存问题。

1.9K4 0

使用Faster-Rcnn进行目标检测(实践篇)

原理上一篇文章，已经说过了，大家可以参考一下，Faster-Rcnn进行目标检测(原理篇) 实验我使用的代码是python版本的Faster Rcnn，官方也有Matlab版本的,链接如下: py-faster-rcnn...R-CNN with VGG16, 3G of GPU memory is sufficient (using CUDNN) 我的是环境是Ubuntu 14.04 + Titan X(12GB) +...width/height)要在0.462-6.828之间，就是太过瘦长的图片不要 0.462-6.828是我自己实验得出来的，就我的数据集而言是这个比例，总之长宽比太大或者太小的，你要注意将其剔除，否则可能会出现下面我实验时候出的错...，小型的ZFmodel，中型的VGG_CNN_M_1024和大型的VGG16,论文中说VGG16效果比其他两个好，但是同时占用更大的GPU显存(~11GB) 我使用的是VGG model + alternative...} im_names = ['1559.jpg','1564.jpg'] # 改成自己的test image的name 上几张我的检测结果吧 ?

2.7K6 0

秘籍：如何用廉价硬件玩转深度学习，成本不到1000美元

NVIDIA最新的几个架构，按照次序是：Kepler、Maxwell、Pascal。架构之间的差异影响着速度，Pascal Titan X的速度是Maxwell Titan X的两倍。...大多数机器学习的论文都是基于TITAN X显卡，但是这种显卡最便宜也得1000美元。...下面这段视频是我做的测试：给树莓派一个更强的大脑我之前发过一篇100美元做TensorFlow机器人的文章，机器人可以在一个30美元的硬件上做深度学习。...按照我在GitHub上的说明，你也可以搭建一个机器人，这个机器人通过摄像头看到的一切，都可以简单、快速的解析。我和我的朋友各自搭建了一个树莓派机器人，然后进行了一场啤酒瓶之战。...其实，我现在把显卡换成Titan X了，所有运行的程序并不需要重新编译。总之这个方法还不错，机器的运行速度与用使用K80 GPU的亚马逊P2实例大致相同，后者的价格是1美元/小时。

2.1K10 0

业界 | 深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

图 4 显示了英特尔 Stratix 10 FPGA 和 Titan X Pascal 在 ResNet-50 任务中的性能和性能/功耗比。...有趣的是，英特尔 Stratix 10 在最高 750MHz 的频率上可以比英伟达 Titan X Pascal（1531 MHz）提供多出 35% 的性能。...FPGA 在测试中的表现测试结果显示，英特尔 Stratix 10 FPGA 在 GEMM 稀疏、Int6 和二值化 DNN 中的表现（TOP/sec）比英伟达 Titan X Pasacal GPU...在 Ternary-ResNet 中，Stratix 10 FPGA 可以输出超过 Titan X Pascal 60% 的表现，而功耗效率则比对手好上 2.3 倍。...英特尔对两代 FPGA（英特尔 Arria 10 和英特尔 Stratix 10）与英伟达 Titan X Pascal 在不同最新 DNN 上的评估表明：DNN 算法的发展趋势或许有利于 FPGA，这种架构在某些任务上的表现大幅超越对手

1K4 0

深度学习GPU卡性能比拼：见证Titan RTX“钞能力”

国外一个技术Blog发布了 Titan RTX TensorFlow Benchmarks ? 文中，作者测试了包含Titan RTX在内的多个常见NVIDIA GPU卡在各种AI训练任务上的速度。...土豪请随意使用Tesla V100 不过Lady我在之前的文章里已经个别介绍过这几款GPU卡的特性，有一些是需要各位看官注意的地方： 1....网上有人测试过说2080Ti的Tensor Core,在FP16计算的时候，如果最后是累加FP32的话，只有一半性能。纯FP16计算2080Ti无此问题。...GPU的“规范化训练性能”是通过将其在特定模型上的图像/秒性能除以同一模型上1080 Ti的图像/秒性能来计算的。 Titan RTX、2080 Ti、Titan V和V100基准测试使用张量核。...硬件是2x Titan RTX Desktop Computer with Intel Core i9-7920X + 64 GB of RAM. 他们只是简单地更换GPUs.

5.2K3 0

一文概览主要语义分割网络：FCN,SegNet,U-Net...

此外，由于模型的优异结构，我们的方法比当前发布的在这些数据集上取得最佳的网络参数要少得多。 ?...LinkNet 可以在 TX1 和 Titan X 上，分别以 2fps 和 19fps 的速率处理分辨率为 1280x720 的图像。 ?...在 2017-06-01 的时候，在网络上还没有 Mask R-CNN 的工作实现，而且也没有在 Pascal VOC 上进行基准测试，但是它的分割掩码显示了它与真实标注非常接近。...它首次在 2016 ImageNet 场景解析挑战赛 PASCAL VOC 2012 基准和 Cityscapes 基准中出现。 ? 图13：PSPNet 架构 ?...另一方面，本文的实验表明，在语义分割任务中，ResNet 是一个远优于 VGG16 的编码器。这是我在以前的论文中找不到的。

3.6K2 0

这是英特尔的研究成果

这一研究，主要评估在DNN(深度神经网络)算法领域，两代英特尔FPGA(Intel Arria10和Intel Stratix 10)，与NVIDIA TITAN X Pascal GPU相比性能如何。...基于14nm工艺的英特尔Stratix 10在FP32吞吐量方面达到峰值9.2TFLOP/s。相比之下，最新的Titan X Pascal GPU的FP32吞吐量为11TFLOP/s。...矩阵乘法（GEMM）测试的结果。GEMM是DNN中的关键操作，上述四个不同类型的测试表明，除了在FP32 Dense GEMM测试中，Stratix 10与TITAN X仍有差距。...上图右半部分，显示了英特尔Stratix 10 FPGA和TITAN X GPU的ResNet-50的性能和性能/功耗比。...在性能/功耗比方面，英特尔Stratix 10比TITAN X要好2.3倍到4.3倍。结论当下一代DNN到来时，FPGA的表现能否击败GPU？

9255 0

点击加载更多

dotnet C# 在不同的机器 CPU 型号上的基准性能测试

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

深度学习的GPU：深度学习中使用GPU的经验和建议

MMDetection学习系列（2）——SSD深度探索与实战指南

Titan XP值不值？一文教你如何挑选深度学习GPU

开发 | 除了性价比排名，如何选购深度学习 GPU

深度 | 英伟达深度学习Tensor Core全面解析

深度学习：FPGA VS GPU

玩深度学习选哪块英伟达 GPU？有性价比排名还不够！

为啥在Matlab上用NVIDIA Titan V训练的速度没有GTX1080快？

【干货】深度学习三大硬件+四大学习库基准测试对比，指标全面呈现

深度学习GeForce GTX 1080Titan X(Maxwell) Titan X (Pascal)比较

FPGA 超越 GPU，问鼎下一代深度学习主引擎

深度学习中如何选择一款合适的GPU卡的一些经验和建议分享

使用Faster-Rcnn进行目标检测(实践篇)

秘籍：如何用廉价硬件玩转深度学习，成本不到1000美元

业界 | 深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

深度学习GPU卡性能比拼：见证Titan RTX“钞能力”

一文概览主要语义分割网络：FCN,SegNet,U-Net...

这是英特尔的研究成果

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐