spark快速大数据处理 - 腾讯云开发者社区

、、、、

我想从Oracle检索数据，并将数据转储到Amazon 3.我想使用Apache来完成它。我还知道，我也可以使用简单的Java来做同样的事情，我应该选择吗？这两种方法各自的优点是什么？

浏览 3提问于2016-09-28得票数 0

回答已采纳

1回答

谷歌的数据流和谷歌的数据处理有什么不同？

、

DataFlow本身就有ETL，计算和流处理，为什么我们需要google的Dataproc？

浏览 15提问于2017-08-16得票数 1

1回答

在没有执行者的情况下启动星火会话

、

我有一个用例，我需要使用一些星火的API，而不实际执行任何数据处理。例如:我想用spark.table(table_name).schema读取某些Hive表的模式。 .config("spark.executor.instances", "1") .config("spark.executor.cores", "1").config

浏览 7提问于2022-08-28得票数 0

1回答

Spark与Hive的区别

、、

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-04得票数 1

2回答

如何在Cloud Dataproc上安装Apache Spark的自定义版本

、、

如何在安装自定义版本的Spark的同时保持与Cloud Dataproc工具的兼容性？

浏览 3提问于2018-04-12得票数 3

1回答

如何使用python对数千行数据执行ETL？

、、、、

我有一个pgAdmin数据库，它在geojson format.Using中包含数百万行，这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据，所以我必须这样查询：jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g

浏览 4提问于2020-04-10得票数 0

1回答

如何在Apache Spark中实现递归算法？

、、、

我有一个问题，我想在Spark中实现一个递归算法，并希望了解是否有任何建议可以在Spark中构建它，或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如，spark master)，但假设目录结构非常大，具有O(十亿)个叶节点。对于使用Spark或其他框架/数据处理技术构建递归/迭代类型的数据管道，有什么建议吗？

浏览 37提问于2021-06-24得票数 0

1回答

我怎样才能加快GCP的数据采集(Datapipeline)？

、

大约300吨的数据正在使用Google平台数据集(选项: dev)传输到大查询中。感谢您的阅读。

浏览 1提问于2020-10-19得票数 2

回答已采纳

1回答

将Spark处理的中间数据复制到目标S3时出现的AWS性能问题

目前我正在使用AWS电子病历进行数据处理。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中，以便客户运行Analytics。Spark创建了一个用于数据处理的中间文件夹，我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic

浏览 2提问于2020-10-04得票数 0

1回答

Pyspark能否使用JDBC传递Alter Table

、、、

我知道我可以使用spark.read.jdbc传递查询，但在本例中，我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。

浏览 22提问于2020-06-02得票数 0

回答已采纳

2回答

Hadoop (Mapr) - AddFile如何工作

、

假设我在hdfs上有10个目录，它包含了我想用spark处理的100多个文件。--这要求文件在集群中的所有节点上都可用，这对于本地模式来说并不是什么问题。在分布式模式下，您将希望使用Spark的addFile功能将文件复制到群集.中的所有机器上。我无法理解这一点，会在每个节点上激发文件的创建副本。

浏览 2提问于2014-04-21得票数 2

1回答

错误火花-装配-1.4.1-hadoop2.6.0.jar不存在

我在用--class com.my.application.XApp 1000 诊断: file:/Users/nish1013/Dev/spark-1.4.1-bin-hadoop2.6/lib/

浏览 3提问于2015-12-21得票数 0

1回答

PC上的大量数据？

、、

我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？谢谢

浏览 11提问于2019-10-23得票数 0

1回答

为什么我们不在spark中使用hadoop可写数据类型呢？

、、、、

在hadoop中，我们不使用java序列化，因为它体积大，速度慢。因此hadoop提供了与java序列化相比快速的Writable。在spark中，默认情况下我们使用java序列化，如果我们不想使用java序列化，则可以使用Kryo序列化。我的问题是，为什么不能(不)在spark中使用hadoop序列化呢？，因为我们知道它是紧凑和快速的。

浏览 3提问于2020-02-27得票数 1

1回答

在Python中挖掘大型文件(1 GB+)文本的最佳方法是什么？

、

问题：分批？地图/缩减？哈杜奥普？使用数据库而不是Python？

浏览 1提问于2015-01-21得票数 0

1回答

：它是为了激发sql还是火花流？

、、、

星星之火的概念是否进入了spark或Spark。传统上，数据访问似乎属于Spark。但是，纠正我的错误，数据处理似乎也能够处理实时数据，所以我进入了这个问题。

浏览 2提问于2017-06-29得票数 0

回答已采纳

2回答

pyspark和spark之间的记忆差异？

、、

我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD，然后我使用flatMap操作将二进制数据处理成一堆行。所以我打开了spark-shell和PySpark，并使用默认设置运行了REPL/shell中的命令，唯一的附加参数是--master yarn. spark-shell版本可以工作，而PySpark版本显示了相同的运行PySpark有那么大的开销吗？或者这是binaryFiles是新的问题吗？我使用的是Spark版本2.2.0.2.6.4.0-91。

浏览 1提问于2018-08-11得票数 0

1回答

DC/OS上的Mesos主配置

、、

我正在为运行Kafka->Spark->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3大型实例。

浏览 3提问于2016-05-17得票数 2

回答已采纳

1回答

读取Avro文件，一次一行。Python

、

上下文:我想把Avro文件读入Spark作为RDD。我想知道，如果我可以访问Avro数据模式，是否可以一次解析一行Avro文件。我正在使用pyspark来编写我的spark作业。

浏览 1提问于2015-12-12得票数 1

2回答

Spark应用程序作为Rest服务

我有一个关于spark应用程序用法的问题。因此，我希望我们的Spark应用程序作为REST API Server运行，就像Spring Boot应用程序一样，因此它不会是批处理过程，相反，我们将加载应用程序，然后我们希望保持应用程序的活动状态(不调用spark.close())，并通过我们将定义的一些应用程序接口将应用程序用作实时查询引擎。

浏览 1提问于2020-09-01得票数 1

点击加载更多