我可以测量ML.api在Spark中的并行性能吗？

文章/答案/技术大牛

发布

1回答

、、、

一般来说，我想用相同的学习算法在Spark中比较大型数据集和拆分数据集之间的计算时间。另一个原因是我想得到分区模型的结果。如何调整参数才能得到想要的结果？或者我可以停下来使用Spark<em

浏览 3提问于2016-08-25得票数 0

2回答

Apache Spark中的CPU使用率是否有限？

、、

我最近发现，在UDF中添加并行计算(例如使用并行集合)可以显著提高性能，即使在local[1]模式下运行spark或使用具有一个执行器和一个核心的Yarn时也是如此。例如，在local[1]模式下，Spark-Jobs会消耗尽可能多的CPU (即，如果我有8个核心，使用top测量，则为800% )。这似乎很奇怪，因为我<

浏览 6提问于2017-03-06得票数 4

3回答

纯C OpenCL与Python OpenCL性能

、、、、

我正在寻找OpenCL和Pure的Python包装器之间的性能度量。性能测量可以随时间、内存等而变化。-是否有基准？-对时间性能差异的期望是什么？-什么样的任务(当然是并行的.)会有什么不同吗？

浏览 3提问于2014-04-29得票数 0

回答已采纳

1回答

如果数据适合于一台机器，那么使用星火是否有意义？

、、

我有20 my的数据需要处理，所有这些数据都适合我的本地机器。我计划使用Spark或Scala并行学院来实现对这些数据的一些算法和矩阵乘法。既然数据适合于一台机器，那么我应该使用Scala并行集合吗？这是真的吗:并行任务中的主要瓶颈是将数据送到CPU进行处理，所以既然所有数据都尽可能接近CPU，那么Spark将

浏览 0提问于2014-05-28得票数 7

回答已采纳

1回答

从spark中的sql server并行读取

、、

我正在使用com.microsoft.sqlserver.jdbc.SQLServerDriver在spark作业中从sql server读取数据。为了提高性能，需要并行读取数据。spark job建立的连接数是否等于spark-submit命令中的核心数？

浏览 0提问于2019-06-28得票数 1

1回答

Spark Direct Stream没有为每个kafka分区创建并行流

、

我们在集成Spark-Kafka streams时遇到了性能问题。项目设置:我们使用3个分区的Kafka主题，每个分区产生3000条消息，并在Spark direct streaming中进行处理。我们面临的问题是:在处理端，我们使用Spark直接流方法来处理相同的内容。如以下文档所示。Spark应该创建与主题中的分区数量相同的并行直接流(在本例

浏览 3提问于2016-12-08得票数 5

1回答

测试具有长期运行查询的，这些查询被轮询状态。

、、、、

我很难找到一个框架来帮助我测试我正在编写的服务的性能，这个服务有一个长期运行的过程。对服务的一个简化描述是：从/ results /{token}获取结果。我已经接触过Locust.io，它可以很好

浏览 2提问于2020-06-03得票数 0

3回答

如何判断我的C++程序中的OpenMP是否正常工作

、、

我正在使用OpenMP对我的嵌套循环进行多线程处理。因为我刚接触这个东西，所以我不确定我是否以正确的方式使用了OpenMP，这样它才能真正地进行并行编程。所以我想知道我是否可以测量我的使用OpenMP的C++程序的性能，这样我就可以知道它实际上是有效的，我是

浏览 2提问于2009-08-19得票数 6

回答已采纳

1回答

星火中的准等位基因收藏

、、

星火中的“平行集合”的概念是什么，以及这个概念如何能够提高工作的整体性能？此外，应该如何配置分区呢？

浏览 3提问于2018-05-05得票数 1

回答已采纳

1回答

从单个数据源并行运行代码

、、

我写了一个sparkjob，它从hdfs中获取parquet格式的数据。现在，我想根据设备类型区分执行的代码，并为每个设备所有者执行代码。查看日志时，代码是按顺序执行的，而不是并行执行的。我在没有改变执行时间的情况下尝试了不同的#worker#core内存组合数量。在我看来，应该可以有n*m个并行执行，其中n是设备的数量，m是

浏览 18提问于2019-06-12得票数 0

1回答

Java HotSpot中共享内存文件空间不足的影响是什么？

、、、、

我已经运行了许多实验( cpu时间的几个月)，在日志中有以下警告：在Java HotSpot中共享内存文件空间不足的影响是什么？我所发现的关于共享内存文件的全部内容是。从这一点来看，共享内存文件的缺乏似乎对我<

浏览 4提问于2015-07-27得票数 5

回答已采纳

1回答

并行火花收集功能

、、

我注意到spark的函数，collect在大数据集上速度非常慢，所以我尝试使用并行化来修复这个问题。 spark = SparkSession.builder.appName('app_name').getOrCreate()这里是我尝试并行</

浏览 4提问于2019-09-19得票数 0

1回答

多平台性能分析

、、、

我已经写了一个程序，它在两种模式下运行，顺序和多线程，目的是在多个处理器体系结构上运行它，然后分析处理器的性能并比较它们。有什么工具可以帮我做到这一点吗?？我已经有了使用gprof进行代码分析的基本知识，我相信这是不够的。我正在寻找的东西是相同的想法，但更强大！有什么帮助吗?？

浏览 5提问于2013-05-06得票数 1

回答已采纳

1回答

星星之火:并行洗牌=1

、

我只在一个具有Spark的节点上运行Parallelism = 1，以便将其性能与单线程应用程序进行比较。我想知道Spark是否仍然在使用Shuffle，尽管它不是并行运行的。counts = text_file.flatMap(line => line.split(" ")) .reduceByKey(_+_) 我<

浏览 1提问于2015-12-13得票数 3

回答已采纳

3回答

Spark Cassandra性能问题

、、

我是Spark和Cassandra的新手。我面临着一个主要的性能问题，我在Spark中每隔5秒流式传输来自Kafka的数据，然后使用JRI对R语言中的数据进行分析，最后将数据保存到Cassandra各自的列族中。将数据保存到Cassandra的持续时间(以毫秒为单位)随着输入请求的数量增加非常快，每个请求为20

浏览 0提问于2015-11-10得票数 0

1回答

Linux内核在压力下有更好的响应时间

、、、

我有一个我无法理解的奇怪行为:出于性能测量的目的，我使用‘旧的’并行端口接口在debian内核3.2.0-4-amd64上生成IRQ(我使用一个连接到ACK引脚的外部信号发生器)。我编写了自己的内核模块(仅上半部分)来处理中断，并将外部信号发送回并行端口，并在示波器上显示这两个信号，以便我可以

浏览 3提问于2013-11-06得票数 4

2回答

在Unity3d中使O(1)函数成为协程是否值得？

、、

我有两个函数，Foo()和Bar()。是否值得将Foo作为一个协程来获得一些加速？

浏览 11提问于2016-08-09得票数 0

回答已采纳

2回答

php页面的等待时间

、、

我正在调试ajax应用程序的性能问题。 Firefox开发人员工具显示等待时间约为3秒。如果我尝试通过getrusage() 'ru_utime.tv_sec‘和'ru_utime.tv_usec’来测量php脚本，我在脚本开始处随机得到0.2到9秒，脚本开始和结束之间的差异大约是0.07那么我该如何解释这些结果呢？这是否意味着php代码本身运行0.07秒，其余时间用于sql查询等？(我的

浏览 2提问于2017-06-16得票数 2

1回答

什么时候使用Scala Futures？

、、、、

我是spark Scala程序员。我有一个火花工作，有子任务，以完成整个工作。我想使用to Futures来并行完成子任务。一旦完成整个工作，我必须返回整个工作的回应。关于scala Futures，我听说一旦主线程执行并停止，剩下的线程就会被杀死，你也会得到空的响应。我必须使用Await.result来收集结果。但是所有的博客都告诉你应该避免使用Await.result，这是一种糟糕的<

浏览 16提问于2019-09-20得票数 0

1回答

有选择地记录内核Ftrace点以获取特定参数

、、、、

我想使用Ftrace来测量一些内核函数的性能，但我想有选择地测量参数的特定值。这是因为调用相同函数(但参数不同)的相同/其他程序污染了我的Ftrace输出日志。另外，我不想设置PID过滤器，因为它不会解决我的问题(我正在运行多个并行内核线程，并且同一个程序也可以使用不同的参数调用该函数)。在<

浏览 38提问于2021-05-08得票数 0

点击加载更多