hive 数据存储_hive元数据存储_hive 元数据存储 - 腾讯云开发者社区

、

我有psudeo分布式hadoop环境，并使用sqoop和hive进行数据导入和分析。我使用sqoop将数据从mysql导入到蜂箱中，它起作用了，我在我的蜂巢位置(也就是/user/hive/warehouse/ )获得了数据，我可以在hive表中看到数据。我的怀疑是：当我从mysql导入到hive(构建在hadoop之上)时，hadoop中存储的数据会不会？为什么它要在我的hdfs中创建/user/hive/warehouse？蜂巢将如何工作在数据之上？如果我更新mysql中的数据，我可以使用sqoop增量导入来更新hdfs中的数据，但是如果我直接使用hive导入

浏览 5提问于2017-01-11得票数 0

2回答

典型的配置单元和Hadoop磁盘空间使用情况

、

我们有两台服务器的Hadoop/Hive集群，每台服务器上的Hive数据库使用约160 We的磁盘空间，但Hadoop数据目录约为850 We。是否正常，Hive数据库大小与Hadoop数据目录大小的典型比率是多少？

浏览 0提问于2014-09-29得票数 0

2回答

如何为Spark SQL建立元数据数据库？

、

Hive可以有自己的元数据，并在那里存储表、列、分区信息。如果我不想使用hive.Can，我们将为spark创建一个与hive相同的元数据。我想查询spark SQL (不使用dataframe)，就像Hive (select，from和where)一样，我们能做到吗？如果是，我们可以使用哪个关系数据库来存储元数据？

浏览 1提问于2018-12-18得票数 1

1回答

如何在hdfs上使用hive？

、

我已经建立了Apache环境。而且，我创建了一个名为cx的数据库，如下所示： hive>create database cx; OK Time taken: 0.32 seconds hive (default)> show databases; OK cx default Time taken: 0.032 seconds, Fetched: 2 row(s) hive (default)> 当我使用“描述数据库”命令检查数据库cx的细节时。我发现它的存储在本地文件系统上： hive> describe database cx; OK cx file:/u

浏览 3提问于2016-07-04得票数 1

回答已采纳

1回答

关于Hadoop、Hive和Presto的问题

、、

我正在研究使用Hadoop集群上的Hive，然后使用Presto对Hadoop中存储的数据进行一些分析，但我仍然对一些事情感到困惑：文件存储在Hadoop (某种文件管理器)中。 Hive需要表来存储来自Hadoop (数据管理器) 的数据。 Hadoop和Hive是分开存储数据还是Hive仅仅使用Hadoop中的文件？(在硬盘空间等方面？) ->是这样的，Hive是在表中从Hadoop中导入数据，而不使用Hadoop，或者我必须如何看待这一点？ Presto可以不用蜂巢直接在Hadoop上使用吗？先谢谢你回答我的问题:)

浏览 3提问于2014-01-24得票数 1

回答已采纳

2回答

Apache Mahout与Apache HIve的集成

、、

我已经将我的数据集存储在Apache Hive中，但希望对Hive数据库中的数据使用Mahout。如何集成Mahout和Hive，以便从Hive数据库读取Mahout？

浏览 3提问于2012-07-06得票数 1

1回答

AWS胶水作为Hive数据源

、、

我读过AWS Glue是一个与Hive兼容的数据存储，但我还没有找到如何使用AWS Glue作为JDBC数据源。我想使用AWS Glue Catalog作为我的报告来源，如Hive文档所示- Connection URL for Remote or Embedded Mode The JDBC connection URL format has the prefix jdbc:hive2:// and the Driver class is org.apache.hive.jdbc.HiveDriver. Note that this is different from the old H

浏览 14提问于2021-05-25得票数 0

2回答

基于Apache Atlas和Hive，元数据存储在哪里？在Titan Graph Repository还是在RDBMS with Hive中？

、、、、

我已经安装了Atlas、Hive和Hadoop，并且配置正确。但是我想知道导入元数据后元数据存储在哪里？根据阿特拉斯的一些文件，它说元数据将存储在泰坦图库中。然而，根据Hive的一些文档显示，元数据将存储在MySql等关系型数据库中。如果我同时安装Atlas和Hive，元数据会存储在哪里？

浏览 0提问于2016-04-27得票数 1

1回答

如何在附加Azure Blob存储上使用外部Metastore创建/访问Hive表？

、、、、

我想使用运行Azure HDInsight随需应变集群(3.6)的Azure data (v1)在Hive中执行一些数据转换。由于HDInsight随需应变集群在空闲时间后被销毁，而且我希望/需要保留关于Hive表(例如分区)的元数据，所以我还使用Azure Server数据库配置了一个外部Hive转移。现在，我希望将所有生产数据存储在一个单独的存储帐户上，而不是一个“默认”帐户，其中data和HDInsight还为日志记录和其他运行时数据创建容器。因此，我有以下资源： HDInsight按需数据工厂(作为一种链接服务) 用于Hive转移的Server和数据库(按需配置在HDIn

浏览 0提问于2018-01-22得票数 1

1回答

Hive可以处理二进制数据吗？

、

可以使用Hive处理非结构化数据。如果我们在oracle数据库中有镜像文件，我们必须运行sqoopout将该镜像从oracle加载到另一个源数据库，并将其导出到hive表中。你能告诉我如何在hive中处理图像文件吗？

浏览 1提问于2017-07-07得票数 4

1回答

如何对蜂巢中所有加载的数据启用snappy压缩？

、、、、

我在我的蜂巢仓库里有很多TB的数据，我正试图为它们启用快速压缩。我知道我们可以使用 hive> SET hive.exec.compress.output=true; hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec; 当将数据加载到单元中时，如何压缩已经加载的数据。

浏览 0提问于2015-05-25得票数 1

2回答

在Hadoop中使用HBase代替Hive的目的

、、、

在我的项目中，我们使用Hadoop 2、Spark、Scala。Scala是编程语言，Spark在这里用于分析。我们同时使用Hive和HBase。我可以使用HDFS访问Hive的所有细节，如文件等。但我的困惑是- 当我能够使用Hive**，执行所有任务时，为什么需要** HBase 来存储数据。这不是一种开销吗？ HIVE 和 HBase**?**的功能是什么？如果我们只使用Hive，那么问题应该是什么呢？有谁能告诉我。

浏览 2提问于2016-12-29得票数 4

回答已采纳

1回答

从蜂巢到德鲁伊交互时出错

、、、

我正在尝试从Hive创建一个Druid数据源，并为此使用了表Hive。首先，我创建了一个数据库Hive：database_hive，然后在这个数据库中创建了一个表。 CREATE TABLE database_hive.hive_table ( timemachine int, userId String, lang String, location String, name String, network String, posted String, sentiment String, text String, );

浏览 6提问于2019-10-14得票数 0

回答已采纳

1回答

将2个颤振应用程序与单个应用程序中的Hive合并

、、、

我确实有一个主要的应用程序，使用Hive作为数据库，我想将另一个应用程序合并到这个主应用程序中，它也把Hive作为数据库。我对蜂巢没有经验，所以我不知道我需要做些什么才能将两者合并。上面的代码是主应用程序中的main.dart： Hive ..init(document.path) ..registerAdapter(PostsAdapter()); await Hive.openBox(appState); 这是来自另一个main.dart的： void main() async { // hive initialization await Hive

浏览 4提问于2022-04-01得票数 0

1回答

在Hive表中存储Blob数据类型的最佳方式是字符串还是二进制？

、、

在Hive表中存储Blob数据类型的最佳方式是字符串还是二进制？我们已经使用Sqoop将RDBMS表归档到Hive中。它有一个BLOB类型的列，所以在Hive中，我们把它保存在二进制中。但是我们无法将二进制内容读取到PDF或任何文档中。那么，我们是否有可能将配置单元二进制数据作为文档来读取呢？将BLOB数据存储到Hive二进制是推荐的方法，或者我们还有其他方法吗？是否有像HBase这样的大数据组件，Cassandra将支持BLOB类型？

浏览 19提问于2018-09-26得票数 1

2回答

蜂箱桌不见了

、

我使用Sqoop命令将数据从MySQL导入到Hive。sqoop import --connect jdbc:mysql://mysql_server/db1 --username userid --password passwd --query 'select col1, col2, sum(col3), sum(col4), sum(col5), sum(col6) from table1 WHERE $CONDITIONS group by col1, col2' --split-by col1 --hive-import --hive-home /root/dev/hi

浏览 3提问于2014-03-21得票数 1

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

2回答

Hadoop :如何允许常规用户在仓库目录中连续地写入数据和创建表？

、、、

我在单个节点上运行Hadoop 2.2.0.2.0.6.0-101。我正在尝试运行Java程序，该程序通过常规用户将数据从Eclipse中写入到现有的Hive表中。我有例外： org.apache.hadoop.security.AccessControlException: Permission denied: user=dev, access=WRITE, inode="/apps/hive/warehouse/testids":hdfs:hdfs:drwxr-xr-x 之所以会发生这种情况，是因为普通用户对仓库目录没有写权限，只有hdfs用户有： drwxr-xr-x

浏览 2提问于2014-03-11得票数 4

1回答

Apache Hive-了解配置单元中的分区

我正在尝试学习apache hive，并且正在学习Oreilly编程hive，在理解Hive中的分区时遇到了一些问题。以下是查询： CREATE TABLE employees ( name STRING, salary FLOAT, subordinates ARRAY<STRING>, deductions MAP<STRING, FLOAT>, address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> ) PARTITIONED BY (country STRING,

浏览 0提问于2016-07-18得票数 0

1回答

从在azure云上运行的databricks向外部配置单元群集写入pyspark

、、、

我有在databricks中运行的pyspark笔记本。我使用pyhive中的'hive.Connection‘连接到外部配置单元群集。我的数据存储在spark数据帧中。我的问题是，如何将来自dataframes的数据写入Hive中的新表，该表位于databricks以外的不同集群中？谢谢

浏览 11提问于2020-09-26得票数 0

1回答

在trino中读取单元桶表时，是什么原因导致表损坏？

、

首先，不能公开数据的格式，但桶表是通过以下表格创建语句和hive中的选项创建的。 1.创建DDL CREATE EXTERNAL TABLE `schema1.ex1`( `col1` string, `col2` string, `col3` string, `col4` string ) PARTITIONED BY(`date` string) CLUSTERED BY (col1) SORTED BY(col2) INTO 32 BUCKETS ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde'..

浏览 2提问于2021-11-29得票数 1

回答已采纳

1回答

用于单元创建表的多个转义字符

、、、、

浏览 3提问于2021-06-22得票数 1

回答已采纳

1回答

Spark可以像Hive一样读取Alluxio的元数据吗？

、、

我正在尝试通过使用Alluxio来减少读取和写入数据所用的时间。但是我发现我必须指定读取数据的路径。我发现我可以使用Hive的metatool将Hive的仓库从HDFS更改为Alluxio，这样我就可以通过Spark sql将数据写入Alluxio。但是我不知道如何用sql读取Alluxio的数据。有没有办法像Hive一样读/写Alluxio的数据？也许可以读取Alluxio的元数据并将其添加到metastore？

浏览 6提问于2017-12-15得票数 2

3回答

当底层HDFS群集不再存在时，如何从配置单元元存储中删除数据库

、、、

我正在使用临时GCP Dataproc集群( Apache Spark 2.2.1、Apache Hadoop 2.8.4和Apache Hive 2.1.1)。这些集群都指向相同的Hive Metastore (托管在Google Cloud SQL实例上)。我在一个这样的集群上创建了一个数据库，并将其位置设置为‘HDFS:/ database _name’，如下所示： $ gcloud dataproc jobs submit hive \ -e "create database db_name LOCATION 'hdfs:///db_name'"

浏览 4提问于2018-11-03得票数 2

1回答

Hive Hadoop群集- hive客户端数据库视图不一致

、、、、

您好，我有一个由5台Ubuntu机器组成的hadoop集群。每台机器都可以成功地从HDFS(Hadoop分布式文件系统)存储和检索文件，并维护HDFS文件的一致视图。通过hive创建数据库时，不同机器上的hive客户端无法看到彼此的数据库，即使它们可以在HDFS上的/user/hive/warehouse/<databasename>.db/<tablename>中找到表文件。我想知道如何为hive启用跨客户端资源共享。

浏览 15提问于2019-03-08得票数 0

回答已采纳

2回答

蜂窝仓库路径使用-默认路径，而不是我自己的hdfs路径

、

与ApacheHive1.1.0和.hiverc相关的问题我已经安装了ApacheHive1.1.0。默认情况下，hdfs主//用户/单元/仓库，hdfs temp : /tmp 我在unix机器hdpadmin上有用户，现在我有了我的应用程序特定的HDFS路径。 Probelm:数据库是在默认的仓库目录中创建的，而不是应用程序特定的目录:/ app /myApp/HIVE/仓库解决这个问题的办法是什么？ [root@cdh1 ~]# su - hiveuser [hiveuser@cdh1 ~]$ vim .hiverc [created a hiverc file] SET hive.

浏览 1提问于2015-10-09得票数 0

2回答

如何为saveAsTable使用不同的配置单元转储？

、、、、

我使用的是Spark SQL (Spark 1.6.1)，使用的是PySpark，我需要从一个Hive元存储加载一个表，并将数据帧的结果写入另一个Hive元存储。我想知道如何为一个spark SQL脚本使用两个不同的元存储？下面是我的脚本。 # Hive metastore 1 sc1 = SparkContext() hiveContext1 = HiveContext(sc1) hiveContext1.setConf("hive.metastore.warehouse.dir", "tmp/Metastore1") #Hive metastore 2

浏览 1提问于2017-05-19得票数 2

1回答

Azure数据工厂配置单元中的HDInsight创建外部TABLE...LOCATION:没有用于方案的FileSystem : adl

、、、

我有一个具有HD Insight管道的数据工厂管道，该管道正在尝试访问Azure Data Lake目录。 "type": "HDInsightHive", "typeProperties": { "scriptPath": "mpp-hive-scripts/parse_log.q", "scriptLinkedService": "AzureStorageLinkedService",

浏览 2提问于2016-06-08得票数 0

1回答

使用S3进行蜂窝转移吗？

、、

我正在将S3配置为Hive的数据仓库。然而，我不确定Hive的“metastore”部分是否可以使用S3作为存储。大多数教程(例如https://data-flair.training/blogs/apache-hive-metastore/)都提到metastore只支持Derby和其他一些关系型数据库。这是真的吗？对我来说，配置metastore以使用s3作为存储听起来像是一个简单的配置更改。

浏览 4提问于2019-06-04得票数 0

回答已采纳

2回答

关于蜂巢的问题

、、、

我有这样的环境： .slaves=‘slaves 5’>应用程序: ambari，hue，hive，sqoop，hdfs .生产中的服务器(与hadoop分离)和mysql数据库。我的目标是：优化在此mysql服务器上进行的查询，这些查询现在执行起来很慢。我做了什么：我使用Sqoop将mysql数据导入到HDFS。我的怀疑是：我不能使用Hive在HDFS中直接选择吗？我是否必须将数据加载到Hive中并进行查询？如果将新数据输入mysql数据库，那么获取这些数据并将其插入HDFS并再次插入Hive的最佳方法是什么？(也许实时的

浏览 3提问于2017-02-15得票数 0

回答已采纳

2回答

Hadoop -使用PIG加载蜂巢表

、、、

我想用猪加载蜂箱表。我认为我们可以通过HCatLoader来实现这一点，但是我正在使用xml文件来加载pig。为此，我必须使用XMLLoader.我可以使用两个选项在Pig中加载XML文件吗？我使用自己的UDF从XML文件中提取数据，一旦提取了所有数据，我就必须在Hive表中加载Pig数据。我不能使用HIVE提取XML数据，因为我收到的XML非常复杂，我编写了自己的UDF来解析XML。任何建议或指针，我们如何可以加载Hive表使用猪数据。我在用AWS。

浏览 1提问于2015-10-03得票数 0

2回答

如何让Hive JDBC驱动程序和Hive shell与同一个DB通信？

、、、

我有一个在默认端口10000上运行的配置单元服务器，启动方式是：hive --service hiveserver然后我有java程序(教程！)使用使用以下命令连接到它： Connection con = DriverManager.getConnection("jdbc:hive://localhost:10000/default", "", ""); 本教程将运行，它将在默认数据库上创建一个表testhivedrivertable并对其进行描述。这工作得很好，而且我的hive服务记录了一堆东西。然后，我尝试通过hive -p 10000将一

浏览 1提问于2011-10-08得票数 1

回答已采纳

1回答

从PySpark查询远程配置单元元存储区

、、

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。如果可能的话，我想把所有的东西都放在python环境中。有什么想法吗？ from pyspark.sql import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{jdbcPort}/{jdbcDatabase}" driver = "org.apache.hive.jdbc.HiveDriver" # initialize spark = SparkS

浏览 14提问于2020-09-28得票数 0

1回答

presto蜂窝转移连接

、

在我的一个应用程序中，我一直在使用presto和hive-metastore从s3查询数据。为了在生产环境中配置hive-metastore (我将在docker上分别部署presto和hive )，我只想知道，presto是为并发查询创建多个hive-metastore连接，还是为所有并发查询创建单个hive - metastore连接？例如，假设在我的应用程序中运行100个实例查询，那么是使用hive-metastore创建100个连接，还是只创建一个连接并对所有查询使用相同的连接？我对所有这些东西都是新手，所以可能会遗漏一些明显的东西。提前谢谢。

浏览 45提问于2019-03-25得票数 1

2回答

当HDFS已经提供数据存储时，为什么还要使用Hive？

、、

我已经开始学习Hadoop了，我知道HDFS提供了分布式存储系统，Mapreduce是用于data processing.Now的，我正在阅读Hadoop生态系统。从Hive的定义来看，它是一个构建在hadoop上的数据仓库，用于提供类似SQL的接口。我的问题是，当hadoop提供容错、分布式的HDFS时，为什么要使用hive？hive会取代HDFS吗？ hive是否也只提供sql接口或存储？

浏览 1提问于2018-07-26得票数 0

2回答

蜂箱的处理库是什么？

、、、

我在网上也不熟悉蜂巢和阅读。但仍有疑问，但仍未消除。对于单元外部表，使用单元格keep table's metadata within HDFS, but not in its warehouse which is also in HDFS。对吗？无论是它的内部表还是外部表，在这两种情况下，data of table都只能在HDFS中使用，而在NOWHERE中是可用的。也就是说，数据可以从任何地方获取，但必须在HDFS中加载，因为HIVE使用hadoop的处理引擎来处理数据。对吗？内部表中，table's metadata and table&

浏览 26提问于2022-02-05得票数 1

1回答

Pyspark不显示配置单元数据库

、、

我尝试通过pyspark连接到hive数据库，但看不到我的数据库(仅默认) Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.4.5 /_/ Using Python version 3.7.4 (default, Aug 13 2019 20:35:49) SparkSession available as 'spark'. >&

浏览 2提问于2020-07-02得票数 0

1回答

我能否将集群A中的Hive表与集群B中的Hbase表连接起来

、

我的客户有一个计算场景，一些数据存储在集群A的Hive中，另一些数据存储在集群B的Hbase中，然后他们想要对这两种表进行一些连接操作。那么有没有一种方法可以让我在Hive中这样做： select hive_table.col1, hbase_table.col2 from hive_table inner join hbase_table on hive_table.id = hbase_table.id 配置单元表和hbase表存在于不同的集群中。

浏览 1提问于2018-05-26得票数 1

2回答

spark HWC无法写入现有表

、、、、

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession._ import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession val hiv

浏览 2提问于2020-01-28得票数 2

1回答

在钻孔-蜂巢的情况下不进行动态模式发现

我用的是蜂巢和钻头。存储插件信息： { "type": "hive", "enabled": true, "configProps": { "hive.metastore.uris": "", "javax.jdo.option.ConnectionURL": "jdbc:mysql://localhost:3306/metastore_hive", "javax.jdo.option.ConnectionDriverNa

浏览 3提问于2015-10-22得票数 0

回答已采纳

1回答

输出配置单元表已存储桶，但Spark当前未填充与配置单元兼容的存储桶输出

、、

我有一个Apache Spark(v2.4.2) dataframe，我想把这个dataframe插入一个hive表中。 df = spark.sparkContext.parallelize([["c1",21, 3], ["c1",32,4], ["c2",4,40089], ["c2",439,6889]]).toDF(["c", "n", "v"]) df.createOrReplaceTempView("df") 我创建了一个蜂窝表： spark.sql

浏览 23提问于2019-12-25得票数 2

1回答

在presto中对配置单元存储区表运行查询时出现异常

在使用presto对流式配置单元表运行查询时出现此异常。 HIVE_PARTITION_SCHEMA_MISMATCH (16777224) com.facebook.presto.spi.PrestoException: Found sub-directory in bucket directory at com.facebook.presto.hive.BackgroundHiveSplitLoader.listAndSortBucketFiles(BackgroundHiveSplitLoader.java:367) at com.facebook.presto.hive.Backgro

浏览 2提问于2016-04-14得票数 1

1回答

使用Sqoop从MySql导入配置单元

、、

sqoop import --connect jdbc:mysql://mysql.example.com/i --username root --password root --table Student --hive-home /user/hive/warehouse --hive-import --create-hive-table --hive-table databasename.tablename -m 1 配置单元表名为'tab1‘和数据库为'abc’中未显示任何数据。MySQL数据库名称inst和表名stu。

浏览 1提问于2018-04-08得票数 0

1回答

如何以Parquet格式将星火数据帧存储为动态分隔的Hive表？

、、、、

目前的原始数据在蜂巢上。我想要连接几个分区的to的Hive表，然后以Parquet格式将结果作为分区的Hive表输出。我正在考虑将Hive表的所有分区作为加载。然后加入，分组等等。这是正确的方法吗？最后，我需要保存数据，我们是否可以将Spark保存为一个Parquet格式的动态分区Hive表？如何处理元数据？

浏览 2提问于2016-03-14得票数 1

回答已采纳

1回答

Hive -如何在内部执行多个大表连接查询(在MapReduce中)，以及如何对其进行优化？

、、

假设我有4-5个大表(以to为单位的数据)，我想在hive中加入它们。Hive在内部(在MapReduce中)执行joins的效果如何？

浏览 1提问于2018-06-27得票数 1

1回答

将数据加载到Docker上托管的配置单元时出错

、、

我正在尝试使用以下内容将数据加载到docker容器上运行的hive表中：我收到以下错误：``Windows版权所有(C) Microsoft Corporation。版权所有。尝试新的跨平台PowerShell PS C:\Users\John Mekubo> cd desktop PS C:\Users\John Mekubo\desktop> cd hive PS C:\Users\John Mekubo\desktop\hive> cd docker-hive PS C:\Users\John Mekubo\desktop\hive\docker-hive>

浏览 0提问于2020-11-17得票数 0

1回答

Hive /Map-减少Hadoop集群上的作业:如何(粗略地)计算所需的磁盘空间？

、、、、

以下用例：我对.gz压缩中大小约为500.gz的数据运行一个单元查询： select count(distinct c1), c2 from t1 group by c2; 此查询的结果是~2800个映射作业和~400个裁减作业。当设置每个160 to实例存储有20个实例的Hadoop集群时，作业将停止在97%的map和21%的减少进度，然后回落到94%的map和19%的进度，然后再没有任何进展。我认为这是因为HDFS的磁盘空间处于使用限制。也许我可以在那天晚些时候提供一条异常消息。：是否有一种方法可以根据正在处理的数据的输入大小粗略计算HDFS所需的磁盘空间？请记住，输入数据以.gz格

浏览 0提问于2013-01-16得票数 1

回答已采纳

2回答

配置单元-外部表和csv数据

、、

我需要你的一些帮助来解决一个关于从hive重新引用数据的问题。以下情况:我将CSV文件data.csv导入hadoop。现在，我发现了许多使用外部表在csv文件之上创建模式的代码片段。我的问题是，hive如何知道外部表的模式连接到data.csv。在示例中，我找不到对csv文件的引用。 sample_1.csv在this hive example中的用法在哪里引用，或者hive如何知道来自sample_1.csv的数据包括这些数据？

浏览 8提问于2020-05-03得票数 0

1回答

Oozie with Hive问题

、

我正在尝试使用hive action与Oozie一起使用hive。Oozie工作流应该将数据从一个Hive表加载到另一个Hive表。我在Hive中有一个表foo，它应该将数据加载到表"test“中。我使用的是Cloudera VM和Hadoop 2.0.0-cdh4.4.0。我使用以下命令运行工作流： [cloudera@localhost oozie-3.3.2+92]$ oozie job -oozie http://localhost:11000/oozie -config examples/apps/hive/job.properties -run 当我转到JobT

浏览 1提问于2014-05-13得票数 1

1回答

无法更新Hive事务表

、

我正在尝试更新Hive事务表，但它给出了以下错误：失败: SemanticException错误10290:在解析、重写、合并/更新或删除查询时遇到解析错误。下面是我的桌子DDL： CREATE TABLE bucketed_poc( Col1 Int, Col2 Int ) CLUSTERED BY (Col2) INTO 10 BUCKETS STORED AS ORC TBLPROPERTIES("transactional"="true","orc.compress"="ZLIB"); 下面是我为ACID表设置

浏览 10提问于2017-07-19得票数 1