首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >单元-表数据到键/值对

单元-表数据到键/值对
EN

Stack Overflow用户
提问于 2018-02-14 05:27:17
回答 1查看 900关注 0票数 0

我一直在想MapReduce是如何为蜂巢工作的。更具体地说,我想了解表中的数据是如何转换成键值对的。

我有一个表,比如说,HDFS上有3个分区

代码语言:javascript
运行
复制
emp_table
+---+---------------+---+----------+
| id|           name|age|department|
+---+---------------+---+----------+
|  1|   James Gordon| 30|  Homicide|
|  2| Harvey Bullock| 35|  Homicide|
|  3|Kristen Kringle| 28|   Records|
|  4|   Edward Nygma| 30| Forensics|
|  5|  Lee Thompkins| 31| Forensics|
+---+---------------+---+----------+

我在上面运行了这个查询

代码语言:javascript
运行
复制
SELECT id, name, department, count(department) FROM emp_table GROUP BY department;

如何将数据分解为键/值对?

我的理论是,关键是列名,而值则是特定列的值。

代码语言:javascript
运行
复制
Key         Value
id          1, 2, 3, 4, 5
name        James Gordon, Harvey Bullock, Kristen Kringle, Edward Nygma, Lee Thompkins
department  Homicide, Homicide, Records, Forensics, Forensics

我没有在网上找到任何关于这方面的资源,所以我不确定我是否正确。有人能帮我澄清一下吗?

此外,如果我做了错误的假设(我怀疑有很多),请告诉我。

EN

回答 1

Stack Overflow用户

发布于 2018-03-07 08:04:15

Hive执行引擎确实生成了运行mapreduce的详细计划。这个计划包括所有的细节,如

  • mapreduce作业数
  • 每个映射的键值和连接条件减少。

只需在hive提示符上执行以下命令,然后遍历计划,以理解mapreduce中的键值。

代码语言:javascript
运行
复制
explain SELECT id, name, department, count(department) FROM emp_table GROUP BY department;

还必须看到EXPLAIN EXTENDED解释输出的样本分析

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48780228

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档