腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Hive
表
的
spark
中
的
FP
增长
算法
、
、
、
下面是我从
hive
表
生成频繁项集
的
代码valStructType(Array()) val dataRow = hiveContext.sql("select col1 from
hive
_table1,371579_1
浏览 2
提问于2017-01-17
得票数 0
1
回答
在大型数据集上
使用
collect()实现
spark
中
的
FP
增长
、
、
、
我
使用
下面的代码在
FP
Growth
算法
中生成关联规则。+ " => " + rule.consequent .mkString("[", ",", "]")} 但是,每当我试图在包含1亿条记录
的
大数据
表
上运行该
算法
时在大数据数据集上执行
FP
增长
算法
时,
使用</em
浏览 0
提问于2017-01-20
得票数 0
2
回答
Apache不
使用
来自
Hive
分区外部
表
的
分区信息
、
、
我有一个简单
的
Hive
外部
表
,它是在S3之上创建
的
(文件是CSV格式
的
)。当我运行
hive
查询时,它会显示所有记录和分区。但是,当我在
Spark
中
使用
相同
的
表
时(
Spark
在分区列上有一个where条件),它不会显示应用了分区筛选器。然而,对于
Hive
托管
表
,
Spark
可以
使用
分区信息并应用分区筛选器。是否有任何标志或设置可以
浏览 0
提问于2019-08-24
得票数 3
1
回答
火花中
的
FP
生长模型
、
、
、
我试图
使用
以下
使用
spark
2.2 MLlib
的
代码在
spark
中
运行
FP
增长
算法
: .setItemsCol("items")val model = fpgrowth.fit(dataset1)select items from MLtable 此<em
浏览 1
提问于2018-08-12
得票数 0
回答已采纳
3
回答
Spark
sql在HDP
的
配置单元
中
找不到
表
、
、
我
使用
HDP3.1,我添加了
Spark
2,蜂窝和其他需要
的
服务。我关闭了蜂巢
中
的
ACID功能。
spark
作业在
hive
中
找不到
表
。但是
表
存在于
Hive
中
。异常如下: org.apache.
spark
.sql.AnalysisException:
表
或视图未找到在
Spark
的
conf文件夹中有
hive</e
浏览 0
提问于2019-04-20
得票数 0
3
回答
从
Spark
添加
的
数据上
的
ACID事务不工作
、
、
我正尝试在
Hive
中
使用
ACID事务,但在
使用
Spark
添加数据时遇到了问题。:所有这些都工作得很好,但是当我尝试删除
使用
Spark
添加
的
行时,出现了一个问题。我在
Spark
中
做什么(iPython):data = sc.parallelize([["1", "A&
浏览 0
提问于2016-09-15
得票数 3
2
回答
在
Spark
中
,CREATE table命令是否创建外部
表
?
、
、
、
基于GitHub ()
中
的
以下线程,我理解CREATE TABLE + Options (如JDBC),将创建一个配置单元外部
表
?这些类型
的
表
不会实现自身,因此当通过SQL删除该
表
或从Databricks tables UI
中
删除该
表
时,不会丢失数据。
浏览 2
提问于2016-04-29
得票数 2
2
回答
通过sparkSQL创建蜂窝
、
、
、
我对蜂巢
中
的
扣环有一个疑问。我已经创建了一个临时
表
,该
表
在列关键字上存储桶。当我检查这个
表
的
基目录时,它显示了前缀为part_*
的
文件名。但是,当我通过另一个
表
手动将数据插入到这个
表
中
时,我
浏览 1
提问于2018-08-02
得票数 5
2
回答
火花仓库与蜂巢仓库
、
、
、
Hortonworks数据平台HDP 3.0有
spark
2.3和
Hive
3.1,默认情况下
spark
2.3应用程序(pyspark/
Spark
sql等)
使用
spark
数据仓库,而
Spark
2.3
使用
Hive
Warehouse连接器与Apache
Hive
集成。我可以在蜂巢转移(MySQL)中看到两个默认
的
数据库。一个指向蜂巢位置,另一个指向火花位置。-------------
浏览 1
提问于2018-10-29
得票数 3
回答已采纳
1
回答
操作不允许:存储在
spark
上
的
单元格
、
、
、
我正试图通过星火实现
Hive
和DynamoDB之间
的
连接。为此,我需要执行以下代码: sparkSession.sql("create external table test (id string) STORED BY 'org.apache.hadoop.
hive
.dynamodb.DynamoDBStorageHandler
浏览 2
提问于2020-03-06
得票数 2
回答已采纳
1
回答
如何在
Hive
3.1到
Spark
2.3(火星雨)
中
创建拼花
表
、
、
、
、
从火花创建/加载拼花
表
时面临
的
问题Horotonworks HDP3.0蜂巢3.12#.成功地将数据插入到现有的拼花
表
中
df.write.format(&qu
浏览 0
提问于2018-10-12
得票数 1
回答已采纳
1
回答
如何列出
Hive
表
的
分区剪枝输入?
、
、
我正在
使用
Spark
查询
Hive
中
的
数据。数据被分区,
Spark
在查询时正确地修剪分区。但是,我需要列出给定查询
的
源
表
以及分区过滤器或特定
的
输入文件(.inputFiles是很明显
的
选择,但它并不反映剪枝),以便确定计算
的
哪一部分数据。我能得到
的
最接近
的
是打电话给df.queryExecution.executedPlan.collectLeaves()。这将相关
浏览 12
提问于2017-09-14
得票数 1
回答已采纳
1
回答
在
Spark
中
,我无法
使用
hive
支持创建一个
表
、
我正在试着遵循下面的例子 org.apache.
spark
.sql.AnalysisException:
Hive
support is requiredto CREATE
Hive
TABLE (AS SELECT); 'CreateTable `default`.`sales`, org.apache.hadoop.
hive
.serde2.lazy.LazySimpleSerDe, ErrorIfE
浏览 23
提问于2022-08-16
得票数 0
1
回答
spark
创建或替换临时视图会给
Hive
Metastore增加内存吗?
、
、
、
我正在分析我们
的
spark
应用程序
的
内存
使用
情况。我们
使用
蜂窝和PySpark尽管我找不到任何额外
的
cache()语句,但磁盘缓存claim_temp
的
存储空间将会爆炸式
增长
。只需选择数据,在select结果
中
包含
浏览 0
提问于2019-04-18
得票数 0
4
回答
将火花数据存储到蜂巢
中
:表格不可读,因为“SequenceFile不是块”
、
、
、
我希望
使用
PySpark将数据保存到一个
Hive
表
中
。指出: from pyspark.sql import HiveContext sqlContext = HiveContext(sc)
浏览 2
提问于2015-07-17
得票数 9
回答已采纳
6
回答
将火花数据作为动态分区
表
保存在蜂巢
中
、
、
、
我有一个示例应用程序可以从csv文件
中
读取数据。可以
使用
df.saveAsTable(tablename,mode)方法以拼花格式将数据存储到
Hive
表
中
。上面的代码工作正常,但是我每天都有这么多
的
数据,所以我想根据creationdate(
表
中
的
列)动态地划分
hive
表
。 是否有任何方法来动态划分数据并将其存储到蜂窝仓库。希望避免
使用
hivesqlcontext.sql(inse
浏览 7
提问于2015-07-10
得票数 41
回答已采纳
2
回答
HDP 3.0不能保存表格以保存细胞亚稳态
、
、
、
我
使用
spark
.sql看到了
spark
中
的
表
,但在
hive
数据库中看不到相同
的
表
。我试过这个,但它并不是为了储存蜂巢而储存
的
。我如何配置蜂巢亚稳态?火花版本为2.3.1。");答案: HDP 3.0及
浏览 2
提问于2018-11-15
得票数 1
回答已采纳
2
回答
hadoop和
spark
有什么区别?
、
随着see在市场上
的
增长
,我可以看到
spark
在Hadoop上
的
主要用例如下: 传感器数据处理:从多个源获取和连接数据,内存
中
的
数据集非常有用,因为它们很容易。
浏览 0
提问于2015-07-08
得票数 3
回答已采纳
2
回答
随着
表
的
增长
,写入分区
的
Hive
表
需要更长
的
时间
、
、
、
、
我
使用
Spark
2.4.4来写入一个2级分区
的
外部
hive
表
(HDFS上
的
格式为parquet ):PARTITIONED模式相当复杂(有许多嵌套
的
数组和结构)。当我插入到该
表
中
时:IO花费
的
时间随着每个作
浏览 0
提问于2021-01-13
得票数 2
1
回答
蜂巢3上
的
蜂巢兽人酸是否需要TEZ (如果不
使用
)?
、
、
、
、
我
的
理解是,对于
Hive
3,
使用
MERGE
的
HIVE
表
也至少需要TEZ作为底层执行引擎,如果没有
使用
Map,或者
使用
Hive
的
Spark
。事实上,我不相信蜂巢合并,更新,删除工作与火花引擎。
Hive
连接器允许您将
Hive
事务性
表
注册为
Spark
中
的
外部
表
,以访问完整
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在云中使用Apache Hadoop,Spark和Hive的6个理由
Hive SQL使用过程中的奇怪现象
使用zabbix监控oracle中的表数据
教程:Apache Spark SQL入门及实践指南!
Spark中Tachyon使用过程中的问题总结及新版本配置差异
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券