Hive:如何连接两个表，使来自两列的所有条目都在最终的表中？

文章/答案/技术大牛

发布

2回答

、、、

我在蜂巢里有两张桌子 t1:-------------A | 2B | 2 prod | revA | 1B | 1C | 1------------- A |

浏览 23提问于2019-09-28得票数 0

回答已采纳

2回答

如何在pyspark sql的大表中选择除2列以外的所有列？

、、、、

在连接两个表时，我想从一个在databricks上的pyspark sql上有许多列的大表中选择除其中两列之外的所有列。我的pyspark sql： set hive.support.quoted.identifiers=none; select a.*, '?!所有列都在</

浏览 5提问于2020-07-28得票数 0

1回答

如何搜索具有给定列名的所有表，并在Hadoop/Hive中返回哪些表具有该列名？

、、

我正在查找HDFS/Hive中包含给定列名称的所有表。

浏览 1提问于2015-02-02得票数 1

2回答

蜂箱连接查询优化

、、、、

Table Acol1, col2,Adate,qty -------表的大小如下：请考虑以下查询) A.col1, B.bdate; 上面的蜂巢查询在一个由4个从节点(8GB内存，100 GB磁盘)和1个主(16 GB内存，100 GB磁盘)组成的集群上需要超过

浏览 2提问于2020-04-12得票数 3

1回答

PostGIS更新触发器

、

我有table_1有列point_id和几何学( point )，table_2有列: area_id、几何学(多边形)和一个table_3，其中包含table_1和area_id表2中的所有point_id的列表，如果是多边形内的点。每次将新多边形添加到table_2中时，我都会尝试更新point_id和area_id，因此对于从table_2到新多边形的table_1中的每个点

浏览 6提问于2022-03-16得票数 0

回答已采纳

1回答

如何将两个表组合在一起，使新表只具有第一个表中的新记录，而所有其他表都来自第二个表？

我的表A有100万份记录，B表有1 000万份记录。表A可以有表B中没有的新记录。如何将这两个表组合起来，使表C拥有来自A的所有记录和来自B的所有记录，但与来自A的更新记录相比，表A和表B都有一个列ID，

浏览 0提问于2018-06-18得票数 0

回答已采纳

1回答

加入配置单元分区的存储桶表，在配置单元中仅包含存储区表(未分区的表)

、、、、

我有两张桌子：使用下面的条件创建另一个表 select distinct如何减少时间，以及非分区/分桶表是否与分区/分桶表连接</

浏览 5提问于2020-12-28得票数 1

2回答

将多列家族从hbase导入到hive

、、、

我正在尝试将hbase表中的两个列族移到组表中。我可以移动一个列的家庭，但我如何能移动另一个在同一个蜂巢表。我在下面移动了一个列家庭。CREATE TABLE hbase_hive(key string, firstname string, age string) STORED BY ‘org.apache.hadoop.hive.hb

浏览 1提问于2016-11-15得票数 0

1回答

使用zend db select join时选择表列

、、、

所以我使用Zend DB select和join()函数来连接两个表...在连接的表中有两列具有相同的名称(假设它是列"id") (我想保留它) 但是，当我在对象上使用Zend_Paginator::factory()时，结果将只有一个来自两个表之一的"id“条目...我如何指定z

浏览 2提问于2011-05-31得票数 1

回答已采纳

2回答

蜂窝连接在两个条件之间

、、

我在连接两个表时遇到了问题，这是基于Hive中的“介于”条件。基本上，因为Hive不支持这些连接，所以我不知道如何解决它。基本上，我想连接两个基于日期列的表，其中t1.date<=t2.date和t1.date>=t2.tdate2。表中没有匹配的其他列。我怎样才

浏览 3提问于2017-11-14得票数 0

3回答

没有键连接两个相等的数据集

、、

使用Hadoop，我想连接两个记录数量相等但不带行号的文件。例如，A.txtb y和B.txt2 s加入后我需要b y 2 s这是完美的并排连接。我不知道如何在Hadoop中这样做，我相信我需要对两个文件进行初始传递才能追加行号？利用猪的答案，和/或地图/减少技巧的各种组合都是很好的。

浏览 4提问于2013-09-30得票数 1

回答已采纳

1回答

通过Sqoop将所有表导入HBase

、、

操作系统: Windowssqoop import-all-tables --hbase-table testhbaseall --hbase-create-tableusername root --pass

浏览 3提问于2015-08-21得票数 2

3回答

我可以加入mysql的蜂巢吗？

、、

我可以连接mysql和hive (hdfs上的蜂窝)之间的表吗？有人告诉我它在mysql和甲骨文之间起作用。

浏览 3提问于2014-12-17得票数 0

回答已采纳

1回答

EXCEL / POWERQUERY/ VBA -合并具有多个实体的两个表

、、、、

我有两个文件，它们由两个来源生成。让我们分别调用9列和16列的Source 1和2。合并/合并这两个文件，总共得到23列。请求者访问ID和管理员访问ID是两个来源的公共列。单个请求者可以在两个表中都有多个条目。例如，1234500007出现两次，第一个请求仅用于查看(源1中的列</

浏览 15提问于2020-03-07得票数 0

回答已采纳

1回答

配置0.13外部表动态分区自定义模式

、、

这就是我要做的我用.创造我的桌子。partitioned by (year int, month int, day int, hour int) 我的目录结构是

浏览 1提问于2014-06-18得票数 1

回答已采纳

1回答

排序合并桶加入与排序合并桶映射连接不同吗？如果是的话，应该添加哪些提示来启用SMB连接？SMBM加入如何优于SMB连接？“设置hive.auto.convert.sortmerge.join=true”这个提示对SMB来说就足够了吗？否则，下面的提示也应该包括在内。集hive.optimize.bucketmapjoin =真集hive.optimize.bucketmapjoin.sortedmerge =真我问的原因是，提示中写

浏览 5提问于2016-11-04得票数 4

1回答

单元格:如何从多个文件或每个文件计数项创建多个表

、

我的目标是将多个文件中的条目合并到一个表中，但在实现时遇到了一些困难。#A18645student#X78543 但是，使用上面的代码，这会将来自N个文件的所有数据合并到我的目录中，这使得合并数据变得很困难。我想要的是将所有文件中的第一个条目连接到一个字符串<e

浏览 1提问于2018-05-01得票数 0

2回答

如何使用DynamoDB (NoSQL)为学生/班级建模

、、、

什么是最好的(对吗？)考虑到我需要建立学生与班级之间的关系，对学生表和班级表进行建模的方法。我考虑到在DynamoDB中没有可用的第二索引。哪些学生属于某个特定的班级？

浏览 0提问于2012-02-08得票数 18

回答已采纳

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部<em

浏览 0提问于2019-08-24得票数 3

1回答

映射到HBase的配置单元表上的联接

、

我们已经在HBase中创建了表，并使用HBase存储处理程序将这些表映射到配置单元。如果表有很大的记录，比如1亿条，如果我们需要基于某一列连接两个表，如果这些列不是行键id列，性能会如何，有没有办法提高映射到HBase的Hive表的表连接性能。问候，GHK。

浏览 2提问于2013-10-09得票数 3

点击加载更多