腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1397)
视频
沙龙
1
回答
调整
apache
drill
中
CTAS
parquet
表
的
模式
:
将
元素
设为
必需
而
不是
可选
、
、
我想使用
apache
drill
生成一个具有非常特定
模式
的
parquet
文件。我使用
CTAS
加入了两个
表
,如下所示: SELECT e1.returneddocids AS returneddocids, e1.pathinfo`/tmp/tier1.
parquet
` e1 LEFT JOIN dfs.tmp.shadow3 c1 ON TRUE LIMIT 100 );
浏览 24
提问于2020-02-06
得票数 0
3
回答
如何在Java或Scala
中
读取和写入Map<String、Object>文件?
、
、
、
正在寻找一个关于如何在Java或Scala
中
读取和写入Map<String, Object>文件
的
简明示例?下面是预期
的
结构,使用com.fasterxml.jackson.databind.ObjectMapper作为Java语言中
的
序列化程序(即使用
parquet
寻找等价物): public static
浏览 0
提问于2015-06-01
得票数 13
3
回答
Parquet
:
将
特定列读入内存
、
、
我已经
将
mysql
表
导出到一个拼图文件(基于avro)。现在,我想从该文件
中
读取特定
的
列。我如何才能完整地阅读特定
的
列?我正在寻找java代码
的
例子。有没有api可以让我传递需要
的
列,然后得到一个二维
表
的
数组?
浏览 2
提问于2014-08-16
得票数 3
3
回答
将
JSON对象文件转换为
Parquet
文件
、
、
、
动机:我想将数据加载到
Apache
Drill
中
。我知道
Drill
可以处理JSON输入,但我想看看它是如何处理拼图数据
的
。有没有什么方法可以做到这一点,
而
不是
首先将数据加载到Hive等
中
,然后使用其中一个
Parquet
连接器生成输出文件?
浏览 0
提问于2014-02-11
得票数 18
1
回答
在synapse中分离
的
专用sql池之间进行数据移动
的
最佳方法是什么?
、
、
有人能告诉我从synapse专用sql池
表
中
读取数据
的
最佳方法吗?我
的
要求是从两个单独
的
专用池中
的
表
中
读取选定
的
列,应用一些转换,然后写入其中一个专用池中
的
另一个
表
。
浏览 17
提问于2022-05-18
得票数 0
1
回答
如何使用
Apache
从AmazonS3查询数据?
、
、
存储桶
中
的
文件格式是这样
的
。格式为年/月/日/时戳,数据为part-0000文件为json格式。我配置
drill
并指向我
的
存储桶名称 "type": "file", "connection": "s3://com.giaosudau.win-bid": { "type&quo
浏览 7
提问于2015-07-30
得票数 2
5
回答
将
钻取查询输出写入csv (或其他一些格式)
我在嵌入式
模式
下使用
drill
,除了复制和粘贴之外,我不知道如何保存查询输出。
浏览 0
提问于2015-06-24
得票数 8
3
回答
Apache
Drill
vs Spark
、
、
、
我有一些使用
Apache
Spark和Spark-SQL
的
经验。最近我发现了
Apache
Drill
项目。你能描述一下它们之间最重要
的
优势/区别是什么吗?我已经读过了,但这个话题对我来说还不清楚。
浏览 0
提问于2015-04-22
得票数 15
回答已采纳
2
回答
坚持星火
、
、
、
、
我是星火世界
的
新手。如何持久化一个Dataframe,以便我们可以跨组件使用它。我有一个卡夫卡流,我正在通过Rdd.Tried RegisterAsTempTable生成Dataframe,但是在另一个程序
中
无法访问该
表
。我希望通过sqlContext访问另一个类
中
的
数据,并使用查询结果进行进一步计算。
浏览 8
提问于2016-10-26
得票数 4
回答已采纳
10
回答
如何在Windows
中
查看文件?
、
、
我找不到关于
Apache
文件
的
任何简单
的
英文解释。例如: 如何查看拼花文件?任何有关这些问题
的
帮助都将不胜感激。
浏览 1
提问于2018-06-19
得票数 58
回答已采纳
1
回答
Apache
演练:编写通用array_agg UDF
、
我希望创建一个
Apache
,以便能够
将
一个组
的
所有值聚合到一个值列表
中
。这应该适用于任何主要类型(
必需
,
可选
)和次要类型(varchar、dict、map、int等)。我
的
实现基于,并为
必需
的
和
可选
的
varchars创建了以下两个类(首先,这是如何统一
的
?)因此,我必须在代码
中
为org.
apache
.
drill
.exec.vec
浏览 3
提问于2020-07-15
得票数 0
6
回答
没有Hadoop
的
地板?
、
、
我想在我
的
一个项目中使用地板作为柱状存储。但是我不想依赖hadoop/hdfs库。是否可以在hdfs之外使用地板?或者,最小依赖是什么?
浏览 6
提问于2015-03-26
得票数 28
回答已采纳
1
回答
Snowflake:失败,出现异常java.io.IOException:org.
apache
.
parquet
.io.ParquetDecodingException:无法读取块-1
中
0处
的
值
、
在
将
拼图格式
的
数据从Snowflake卸载到s3之后,我创建了一个具有等效snowflake
模式
的
Hive
表
,并将s3作为外部位置,但我得到以下错误:看起来Snowflake卸载spark' STORED AS
浏览 1
提问于2020-06-30
得票数 0
4
回答
我们能直接
将
Parquet
文件加载到蜂巢吗?
、
、
、
、
我知道我们可以使用Spark和Impala加载拼花文件,但不知道我们是否可以使用Hive完成同样
的
工作。我读了很多文章,但仍然很困惑。如果我遗漏了一些明显
的
东西,请给我建议或指出正确
的
方向。
浏览 2
提问于2015-12-16
得票数 25
回答已采纳
6
回答
parquet
.io.ParquetDecodingException:无法读取文件
中
块1
中
0处
的
值
、
、
、
我已经使用saveAsTable方法在配置单元中保存了一个远程DB
表
,现在当我尝试使用命令select * from table_name访问配置单元
表
数据时,它给出了以下错误:thrift.ThriftCLIService (ThriftCLIService.java:FetchResults(681)) -java.io.IOException:
parqu
浏览 2
提问于2016-06-15
得票数 20
3
回答
如何从PowerBI读取ADLS1
中
的
拼图文件?
、
、
是否有一个连接器可以从PowerBI读取我
的
ADLS Gen 1存储
中
存在
的
拼图文件并生成报告?
浏览 0
提问于2020-01-15
得票数 1
1
回答
合流HDFS Sink连接器:使用普通字符串格式
的
Kafka主题在
Parquet
格式
中
失败,
而
Avro
模式
必须是记录错误
、
、
、
我已经在虚拟机
中
安装了/:4.0.0映像。我感兴趣
的
是卡夫卡主题,它是hdfs
中
的
纯文本数据(字符串格式)。flush.size=3hadoop.home=/usr/bin/hadoop# connect-standaloneat org.
apache
.
parquet
.avro.Av
浏览 1
提问于2018-02-13
得票数 0
1
回答
Parquet
错误
中
的
多基地:不能将Java.lang.Double强制转换为
、
、
、
、
通过Polybase加载Azure数据仓库,我正在阅读Azure Blob上
的
Parquet
文件。 首先,我在SQL
中
创建了一个外部
表
来指向
Parquet
文件,然后用
CTAS
加载。我怀疑这与如何创建
Parquet
文件有关,
Parquet
文件是从、使用df.to_
parquet
和使用pyarrow创建
的
。深入分析源代码并进行实验,我发现数据类型数据在Arrow (
Parquet
之前
的
浏览 0
提问于2019-04-17
得票数 1
1
回答
Hive:由Hue插入到
表
中产生
的
文件数与pyspark不同。
、
、
、
、
我有一个Cloudera集群,在这个集群上,我
将
大量数据存储在一个作为
Parquet
存储
的
Hive
表
中
。该
表
由整数batch_id进行分区。我插入一批新行
的
工作流程是首先将行插入到暂存
表
中
,然后插入到大型累积
表
中
。我正在使用一个本地
模式
的
脚本来完成这个任务。我希望
Parquet
文件大
而
少。我尝试在运行时设置不同
的</em
浏览 2
提问于2018-02-27
得票数 0
3
回答
如何提高大数据性能?
、
、
、
、
我是这个概念
的
新手,而且还在学习。我在AWS S3
中
共有10个TB文件,在AWS EC2
中
有4个实例(m3.xLarge)(1个主程序,3个工作人员)。目前,我正在
Apache
上使用与python一起使用
的
星星之火。我使用以下命令读取文件;在zeppelin解释器设置
中
: master =我应该做更多
的
编
浏览 1
提问于2016-11-09
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hive底层数据存储格式详解
Spark SQL,DataFrames 以及 Datasets 编程指南
大数据入门基础系列之详谈Hive 复合数据类型之联合union
Uber是如何低成本构建开源大数据平台的?
浅淡 Apache Kylin 与 ClickHouse 的对比
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券