使用Hive表的spark中的FP增长算法

、、、

下面是我从hive表生成频繁项集的代码valStructType(Array()) val dataRow = hiveContext.sql("select col1 from hive_table1,371579_1

浏览 2提问于2017-01-17得票数 0

1回答

在大型数据集上使用collect()实现spark中的FP增长

、、、

我使用下面的代码在FP Growth算法中生成关联规则。+ " => " + rule.consequent .mkString("[", ",", "]")} 但是，每当我试图在包含1亿条记录的大数据表上运行该算法时在大数据数据集上执行FP增长算法时，使用</em

浏览 0提问于2017-01-20得票数 0

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以

浏览 0提问于2019-08-24得票数 3

1回答

火花中的FP生长模型

、、、

我试图使用以下使用spark 2.2 MLlib的代码在spark中运行FP增长算法： .setItemsCol("items")val model = fpgrowth.fit(dataset1)select items from MLtable 此<em

浏览 1提问于2018-08-12得票数 0

回答已采纳

3回答

Spark sql在HDP的配置单元中找不到表

、、

我使用HDP3.1，我添加了Spark2，蜂窝和其他需要的服务。我关闭了蜂巢中的ACID功能。spark作业在hive中找不到表。但是表存在于Hive中。异常如下: org.apache.spark.sql.AnalysisException:表或视图未找到在Spark的conf文件夹中有hive</e

浏览 0提问于2019-04-20得票数 0

3回答

从Spark添加的数据上的ACID事务不工作

、、

我正尝试在Hive中使用ACID事务，但在使用Spark添加数据时遇到了问题。：所有这些都工作得很好，但是当我尝试删除使用Spark添加的行时，出现了一个问题。我在Spark中做什么(iPython)：data = sc.parallelize([["1", "A&

浏览 0提问于2016-09-15得票数 3

2回答

在Spark中，CREATE table命令是否创建外部表？

、、、

基于GitHub ()中的以下线程，我理解CREATE TABLE + Options (如JDBC)，将创建一个配置单元外部表？这些类型的表不会实现自身，因此当通过SQL删除该表或从Databricks tables UI中删除该表时，不会丢失数据。

浏览 2提问于2016-04-29得票数 2

2回答

通过sparkSQL创建蜂窝

、、、

我对蜂巢中的扣环有一个疑问。我已经创建了一个临时表，该表在列关键字上存储桶。当我检查这个表的基目录时，它显示了前缀为part_*的文件名。但是，当我通过另一个表手动将数据插入到这个表中时，我

浏览 1提问于2018-08-02得票数 5

2回答

Hortonworks数据平台HDP 3.0有spark 2.3和Hive 3.1，默认情况下spark 2.3应用程序(pyspark/ Spark sql等)使用spark数据仓库，而Spark 2.3使用Hive Warehouse连接器与Apache Hive集成。我可以在蜂巢转移(MySQL)中看到两个默认的数据库。一个指向蜂巢位置，另一个指向火花位置。-------------

浏览 1提问于2018-10-29得票数 3

回答已采纳

1回答

操作不允许:存储在spark上的单元格

、、、

我正试图通过星火实现Hive和DynamoDB之间的连接。为此，我需要执行以下代码： sparkSession.sql("create external table test (id string) STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler

浏览 2提问于2020-03-06得票数 2

回答已采纳

1回答

如何在Hive* 3.1到Spark2.3(火星雨)中创建拼花表*

、、、、

从火花创建/加载拼花表时面临的问题Horotonworks HDP3.0蜂巢3.12#.成功地将数据插入到现有的拼花表中df.write.format(&qu

浏览 0提问于2018-10-12得票数 1

回答已采纳

1回答

如何列出Hive表的分区剪枝输入？

、、

我正在使用Spark查询Hive中的数据。数据被分区，Spark在查询时正确地修剪分区。但是，我需要列出给定查询的源表以及分区过滤器或特定的输入文件(.inputFiles是很明显的选择，但它并不反映剪枝)，以便确定计算的哪一部分数据。我能得到的最接近的是打电话给df.queryExecution.executedPlan.collectLeaves()。这将相关

浏览 12提问于2017-09-14得票数 1

回答已采纳

1回答

在Spark中，我无法使用hive支持创建一个表

、

我正在试着遵循下面的例子 org.apache.spark.sql.AnalysisException: Hive support is requiredto CREATE Hive TABLE (AS SELECT); 'CreateTable `default`.`sales`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, ErrorIfE

浏览 23提问于2022-08-16得票数 0

1回答

、、、、

我使用Spark 2.4.4来写入一个2级分区的外部hive表(HDFS上的格式为parquet )：PARTITIONED模式相当复杂(有许多嵌套的数组和结构)。当我插入到该表中时：IO花费的时间随着每个作

浏览 0提问于2021-01-13得票数 2

1回答

蜂巢3上的蜂巢兽人酸是否需要TEZ (如果不使用)？

、、、、

我的理解是，对于Hive 3，使用MERGE的HIVE表也至少需要TEZ作为底层执行引擎，如果没有使用Map，或者使用Hive的Spark。事实上，我不相信蜂巢合并，更新，删除工作与火花引擎。Hive连接器允许您将Hive事务性表注册为Spark中的外部表，以访问完整

浏览 3提问于2019-12-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在大型数据集上使用collect()实现spark中的FP增长

Apache不使用来自Hive分区外部表的分区信息

火花中的FP生长模型

Spark sql在HDP的配置单元中找不到表

从Spark添加的数据上的ACID事务不工作

在Spark中，CREATE table命令是否创建外部表？

通过sparkSQL创建蜂窝

火花仓库与蜂巢仓库

操作不允许:存储在spark上的单元格

如何在Hive* 3.1到Spark2.3(火星雨)中创建拼花表*

如何列出Hive表的分区剪枝输入？

在Spark中，我无法使用hive支持创建一个表

spark创建或替换临时视图会给Hive Metastore增加内存吗？

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

将火花数据作为动态分区表保存在蜂巢中

HDP 3.0不能保存表格以保存细胞亚稳态

hadoop和spark有什么区别？

随着表的增长，写入分区的Hive表需要更长的时间

蜂巢3上的蜂巢兽人酸是否需要TEZ (如果不使用)？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐