使用spark的解决方案

TabA TabB 我的需求是为rach规则构建查询动态查询，并使用spark动态运行它。 #没有更多的规则我已经给出了很少的规则来理解问题陈述。#每个规则将具有不同的公式查询将如下所示： select 'A‘作为rule_nm，sum(am1)作为val from tabB where item1 in('1'，'2'，'3')和item2 not

浏览 12提问于2020-07-03得票数 0

1回答

如何在独立模式下将自定义SPARK_CONF_DIR传递给从机

我正在共享集群环境中安装Spark。我们决定使用spark独立模式，并使用sbin中包含的"start-all.sh“命令来启动Spark workers。由于集群的共享架构，SPARK_HOME位于用户不可写的公共目录中。因此，我们在用户的scratch中创建"run“目录，其中可以指向SPARK_CONF_DIR、日志目录和工作目录。我已经确定了一个解决方案

浏览 1提问于2019-04-17得票数 0

2回答

使用Spark生成的mllib模型作为服务器的最佳实践

、、

我正在尝试找出正确的方法是使用Spark+MLlib生成的模型(在本例中是一个协作过滤推荐引擎)来快速、按需并作为服务器提供预测。我目前的解决方案是为此目的连续运行Spark的实例，但我想知道是否有更好的解决方案，也许是不需要运行Spark的解决方案。也许有一种方法可以在不涉及Spark的情况下加载和使用<em

浏览 2提问于2016-10-15得票数 0

5回答

在独立应用程序中使用Spark View Engine

、

我的客户端应用程序需要生成HTML。我想使用像Spark这样的模板/视图引擎解决方案，但我不确定Spark是否可以在ASP.NET应用程序之外使用。有没有人知道以这种方式使用Spark的任何示例或文档？ (如果您知道其他可以独立使用的视图引擎解决方案，我也很想知道这些解决方案。)

浏览 0提问于2009-10-21得票数 16

回答已采纳

2回答

Zeppelin 0.7.2版本不支持spark 2.2.0

、、、

如何降级spark版本？其他的解决方案是什么？我必须使用spark会话将我的hive表连接到spark。但是zeppelin不支持spark版本。

浏览 1提问于2017-08-21得票数 2

1回答

批处理层:如何读取和处理主数据中的新数据？

、

为此，我使用Spark 2作为批处理程序，使用HDFS作为主数据。为了从HDFS读取数据，我编写了以下代码： .builder()", "file:///c:/tmp/spark-warehouse") JavaRDD<String&

浏览 4提问于2016-12-20得票数 1

回答已采纳

3回答

我们应该什么时候使用Spark-sql，什么时候使用Spark RDD

、、、

在哪种场景下，我们应该更倾向于使用spark RDD来编写解决方案，在哪种场景下，我们应该选择使用spark-sql。我知道spark-sql提供了更好的性能，它对结构和半结构数据的处理效果最好。但是，在选择spark Rdd和spark-sql时，我们还需要考虑哪些因素。

浏览 1提问于2020-05-29得票数 0

1回答

在最新的AWS EMR (5.13.X)上安装(引导)最新的Spark时出错

、、

我一直在尝试通过引导在最新的EMR(5.13.X)集群上安装Spark，使用以下Terraform，但没有成功。是否准备好使用最新的Spark/emr版本、可启动脚本或其他解决方案来使用Terraform？bootstrap_action = { path = "s3://support.elasticmapreduce/spark/install-spark</em

浏览 8提问于2018-05-08得票数 0

1回答

S3桶中的对象大小为5.3GB。为了将对象转换为数据，我使用了get_object("link to bucket path")。但这会导致记忆问题。因此，我在RStudio中安装了Spark2.3.0，并试图将该对象直接加载到Spark中，但是直接将对象加载到Spark中的命令不为人所知。library(sparklyr) library(dplyr) sc <- spark_connect(master = "local"

浏览 2提问于2018-07-30得票数 0

回答已采纳

1回答

火花-卡桑德拉-连接器2.0.2的sbt未解决依赖关系

、、、、

build.sbt：libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % &quo

浏览 3提问于2017-06-09得票数 0

回答已采纳

1回答

csv文件中处理spark的新行

、、

我的一个输入文件是csv (用逗号分隔)。其中一个字段是地址，其中包含换行符。因此，当我使用spark读取它时，这会给我带来相当大的麻烦，在spark中，一个输入记录被分成多个记录。有没有人能找到解决方案来解决这个问题。目前的解决方法是在读取spark之前在源端删除数据中的换行符。我想在spark中创建一个通用的解决方案。我使用scala dataframe a

浏览 2提问于2017-11-10得票数 2

1回答

如何从Spark* web UI删除服务器版本( server : Jetty(9.2.z-SNAPSHOT))？*

、、、、

我想删除Spark web ui返回的服务器版本。我开箱即用了Spark，所以我在其他地方找到的解决方案(指使用after指令(https://github.com/perwendel/spark/issues/331#issuecomment-144521580)或编程解决方案(Remove the HTTP Server header in Jetty 9))在这种情况下不起作用。

浏览 71提问于2019-06-18得票数 0

0回答

如何将Spark* Streaming连接到windows上的独立Solr？*

、、

我想将Spark Streaming与独立的Solr集成在一起。我在没有Zookeeper配置的windows上使用Spark 1.6.1和Solr 5.2 standalone。我能够找到一些解决方案，通过传递Zookeeper配置，他们可以从spark连接到Solr。如何将我的spark程序连接到独立的Solr？

浏览 3提问于2017-01-02得票数 0

2回答

将常用字符串存储在对象- Scala中。

、

我希望将经常使用的字符串存储在对象中。除此之外，我还想方便地添加一个类似于mkString函数的功能，其中如果有两个特定类型的对象，则可以将它们附加到某个字符或一组字符。) }这个解决方案在使用"+“函数时很优雅，但是没有toString就无法工作。有没有一个更优雅的解决方案，我甚至不用使用toString函数？其目的是使字符

浏览 0提问于2018-10-03得票数 0

回答已采纳

1回答

为什么在我的spark-submit命令中只使用了一个内核而不是32个？

、、、

嗨，谢谢你的帮助，我知道有很多关于这个问题的话题，我读了很多，尝试了很多解决方案，但是什么都没有发生，我的spark-submit任务仍然只在我的32个可用内核上使用一个内核。使用我的spark-submit命令，我启动了一个Pyspark脚本。我使用一个有32个cpu和128个Go的AWS实例，以及一个2To EBS DD，上面存储了我的parquet文件(它不是hdfs文件系

浏览 4提问于2021-03-29得票数 0

2回答

cassandra -在一个条件下将行从一个表移动到另一个表(where)

、、

如果我有两个结构相同的表，我如何在删除记录的同时将一组行从一个表移动到另一个表？

浏览 26提问于2020-08-27得票数 1

1回答

Spark - Master:解除关联，移除它

、

我正在部署一个包含1个Master节点和3个worker节点的Spark集群。奇怪的是，Master日志中列出的IP地址都来自kube-proxy服务；spark.master=spark://spark-

浏览 28提问于2019-07-17得票数 2

1回答

在sparklyr中加载文件时出现Java错误

、、

我正在使用"sparklyr“包与R一起开发Spark。在sparklyr中加载文件时出现以下错误：library(sparklyr) 显示的错误：

浏览 1提问于2016-11-21得票数 2

3回答

与BigQuery兼容的Spark* AVRO*

、、、

我正在尝试在Hive中创建一个外部表，并在BigQuery中创建另一个表，使用与Spark编写的Avro格式存储在Google Storage中的相同数据。我使用的是带有Spark 2.2.0、Spark-avro 4.0.0和Hive 2.1.1的Dataproc集群 Avro版本/包之间有相同的差异，但如果我使用Hive创建表，然后使用Spark编写

浏览 30提问于2017-12-18得票数 1

1回答

寻找Spark SQL的ARRAY_CONTAINS替代解决方案

、

我使用嵌套数据结构(数组)来存储Spark表的多值属性。我在Spark SQL中使用array_contains(数组，值)来检查数组是否包含值，但似乎存在性能问题。一个大的Spark表需要很长的时间。有没有其他的解决方案。

浏览 0提问于2018-09-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在独立模式下将自定义SPARK_CONF_DIR传递给从机

使用Spark生成的mllib模型作为服务器的最佳实践

在独立应用程序中使用Spark View Engine

Zeppelin 0.7.2版本不支持spark 2.2.0

批处理层:如何读取和处理主数据中的新数据？

我们应该什么时候使用Spark-sql，什么时候使用Spark RDD

在最新的AWS EMR (5.13.X)上安装(引导)最新的Spark时出错

如何将对象从S3桶加载到RStudio中的星火中？

火花-卡桑德拉-连接器2.0.2的sbt未解决依赖关系

csv文件中处理spark的新行

如何从Spark* web UI删除服务器版本( server : Jetty(9.2.z-SNAPSHOT))？*

如何将Spark* Streaming连接到windows上的独立Solr？*

将常用字符串存储在对象- Scala中。

为什么在我的spark-submit命令中只使用了一个内核而不是32个？

cassandra -在一个条件下将行从一个表移动到另一个表(where)

Spark - Master:解除关联，移除它

在sparklyr中加载文件时出现Java错误

与BigQuery兼容的Spark* AVRO*

寻找Spark SQL的ARRAY_CONTAINS替代解决方案

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐