腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
星星之火partitionBy on write.save将所有数据带到驱动
程序
中?
、
、
、
因此,基本上,我有一个python So作业,它读取一些简单的json文件,然后尝试将它们写成由一个字段分区的
orc
文件。分区不是很平衡,因为有些键非常大,而另一些键非常
小
。我的记忆出现了问题:向执行
程序
添加内存似乎没有任何效
浏览 1
提问于2016-11-16
得票数 0
回答已采纳
1
回答
如何将已分区的Hive
ORC
表中的多个
ORC
文件(属于每个分区)组合为单个大
ORC
文件
、
、
、
在用HDFS上所有可能的分区加载表之后--多个
ORC
文件,即HDFS上的每个分区目录都有一个
ORC
文件。我需要将每个分区下的所有这些
ORC
文件组合成一个大的
ORC
文件,用于一些用例。有人能建议我将这些多个
ORC
文件(属于每个分区)合并成一个大的
ORC
文件吗? 我尝试过从分区表中创建一个新的非分区
ORC
表。它确实减少了文件的数量,但没有减少到一个文件。
浏览 0
提问于2017-12-29
得票数 1
1
回答
块和条纹有什么区别?
、
、
、
、
蜂巢的文档: 我的问题是:块和条纹有什么区别?
浏览 3
提问于2020-01-19
得票数 2
回答已采纳
3
回答
如何将
小
ORC
文件合并或合并到较大的
ORC
文件中?
、
、
、
在SO和网络上的大多数问题/答案都讨论使用Hive将一组
小
的
ORC
文件合并成一个更大的文件,然而,我的
ORC
文件是白天分开的日志文件,我需要将它们分开。我只想每天“卷”
ORC
文件(这是HDFS中的目录)。解决这个问题的最佳办法是什么?
浏览 2
提问于2018-04-26
得票数 9
回答已采纳
2
回答
如何合并外部表的
orc
文件?
、
、
、
我试图合并多个
小
兽人文件。遇到了ALTER串联命令,但这只适用于托管表。EXTERNAL TRUE numRows 27051810SerDe Library: org.apache.hadoop.hive.ql.io.
orc
.OrcSerde
浏览 2
提问于2017-12-13
得票数 2
3
回答
如何在linux中查看Hive
orc
文件的内容
、
、
、
我通常对gz文件进行cat并解压缩以查看其内容,例如: cat part-0000.gz | pigz -d | more注: pigz是一个并行的gz
程序
。 我想知道
orc
文件有没有类似的东西。
浏览 2
提问于2013-12-31
得票数 20
回答已采纳
2
回答
配置单元“alter table <table name> concatenate”是如何工作的?
、
、
、
我有n(large)数量的
小
尺寸的
orc
文件,我想合并成k(small)数量的大的
orc
文件。 这是使用配置单元中的alter table table_name concatenate命令完成的。
浏览 36
提问于2017-01-24
得票数 3
1
回答
Spark Small
ORC
条纹
、
、
、
我们使用Spark来扁平化点击流数据,然后将其以
ORC
+zlib格式写入S3,我尝试过在Spark中更改许多设置,但最终创建的
ORC
文件的条带大小仍然非常
小
(<2MB)之前,每个文件的大小为20MB,我现在使用coalesce创建大小为250-300MB的文件,但每个文件仍有200个条带,即每个条带小于2MB 通过将hive.exec.
orc
.default.stripe.size那么,有没有关于如何增加创建的
ORC
文件的条带大小的想法?因为小条带的问题是,当
浏览 22
提问于2018-01-14
得票数 1
3
回答
SQL -2个SQL部件合并为1个
------------ from DB.order O LEFT JOIN DB.orderCompleted
OrC
ON O.id =
OrC
.order_id from DB.order O
浏览 0
提问于2017-10-26
得票数 0
2
回答
如何控制Spark job在写入时创建的输出部品文件的数量?
、
、
、
完成工作后,我通常使用以下代码进行保存dataFrame.write.format("
orc
").save("/path/in/hdfs") //storing as
ORC
file as of Spark 1.4 Spark job在最终输出目录中创建了大量的
小
零件文件。最后,我想使用这些par
浏览 4
提问于2015-07-06
得票数 2
回答已采纳
2
回答
不同文件格式的配置单元中的文件大小
、
我创建了另一个表(存储为
ORC
),并复制了前一个表中的数据。当我检查
ORC
表中的数据大小时,它超过了2MB。
ORC
是一种压缩文件格式,那么数据大小不应该更小吗?
浏览 2
提问于2016-11-25
得票数 0
2
回答
Python -使用对象列表,属性错误
、
我有一个
orc
对象,以及一个需要跟踪它可以看到的
orc
的radar对象。我使用一个列表跟踪
orc
,但是当我试图从列表中提取一个
orc
(或相关数据)时,我会得到一个属性错误。确切的错误是:这是雷达课 classdef addOrc(self,
orc<
浏览 8
提问于2015-04-20
得票数 0
回答已采纳
1
回答
将数据集从文本文件格式转换为"presto-
orc
“格式以获得更好的prestoDB性能
如何使用这种"presto-
orc
“文件格式?我通常使用hive将数据写入
ORC
/RCFile/Parquet。
浏览 0
提问于2015-11-16
得票数 0
1
回答
如何使用SPARK将巨大的数据(几乎800 GB)写入HDFS中作为hive
orc
表?
、
、
我正在使用一个巨大的历史文件(800 GB)和一个
小
的增量文件(3 GB)进行一些计算。在使用hqlContext & dataframe的spark中,计算发生得非常快,但当我试图将计算结果写为
orc
格式的hive table时,这将包含近200亿条记录,数据大小几乎为800 GB,这花费了太多时间[ UPDATED_RECORDS.write.format("
orc
").saveAsTable("HIST_
ORC
_TARGET") ] 那么我就面临着上面的问题。(&quo
浏览 3
提问于2016-06-27
得票数 1
2
回答
胞中的ALTER命令中的连接是如何工作的
、
、
、
我看到了这个链接,但我从这个链接得到的是,对于
ORC
文件,合并发生在一个条级。 如有任何帮助,请提前表示感谢。
浏览 0
提问于2018-09-04
得票数 2
2
回答
如何读取RC文件内容
、
、
我已经将一个文件加载到我的hive表中,它是
ORC
文件格式。Exception in thread "main" org.apache.hadoop.hive.ql.io.FileFormatException: Malformed
ORC
file /appsat org.apache.hadoop.hive.ql.io.
orc
.ReaderImpl.ensureOrcFooter(ReaderImpl.java:248) at org.apache.hadoop.hive.ql.io.<em
浏览 5
提问于2015-10-13
得票数 0
回答已采纳
1
回答
如何解决spark读取hive
orc
文件遇到错误
、
、
、
jdk 1.8 scala 2.12.11 spark 3.0.1当我在scala spark中读取配置单元表并写入导出
orc
文件时它运行成功 当我想从python pyspark中的句号导出
orc
文件中读取
orc
文件时,它正在成功运行。dfs = spark.read.
orc
("/Use
浏览 29
提问于2021-02-19
得票数 1
1
回答
XSLT验证:使用for-each
、
、
首先,我要说我不是一个
程序
员。然而,不知何故,我一直忙于编写XSLT验证模板。我正在尽我所能,用我所知不多的东西,从网上搜索到的东西。然而,我被一个使用'for-each‘结构的逻辑卡住了。> Required; only one
ORC
Segment per OrderGroup allowed <xsl:variable name=&
浏览 3
提问于2014-01-31
得票数 0
2
回答
C++ Apache
Orc
没有正确过滤数据。
、
我正在发布一个简单的c++ Apache文件读取
程序
,其中: 根据给定的字符串过滤数据。#include <
orc
/Reader.hh> #include <
orc
/ColumnPrinter.hh> #include <
orc
/Exceptions.hh> #include <
orc
/OrcFile.hh;
orc
::ReaderOptions m_Rea
浏览 13
提问于2021-12-29
得票数 1
回答已采纳
1
回答
如何读取没有扩展名的文件?
、
我刚刚从服务器"hdfs dfs /user/hive/warehouse/"from“下载了一些文件,下载的文件夹文件没有扩展名(我以为它是一个拼板文件),当我使用命令” *“检查它时,它显示了000000_0 :data,我使用的是val rddFromFile = spark.sparkContext.textFile("path"),它显示了每一行没有分隔或用"?”在每个字段之间--
浏览 5
提问于2020-12-24
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
微信小程序-快递小程序
小程序开发_微信小程序_分销系统_小程序制作平台-小程序模板-毛豆科技
什么是小程序,小程序的作用
腾讯投票小程序多人投票小程序作品投票小程序人人微投票
小程序可以很好地去黏住用户、毛豆科技小程序制作、小程序模板、小程序创造未来
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券