hive 数据清洗方案 - 腾讯云开发者社区

、、

根据和其他参考资料，Pig在处理非结构化数据方面优于Hive。因此，数据首先用猪清洗，然后用蜂巢处理。我想更多地了解猪猪如何处理非结构化数据，而Hive却不能。

浏览 6提问于2013-01-12得票数 3

回答已采纳

1回答

从现有外部表创建外部蜂巢表

、、

我在HDFS路径中有一组CSV文件，我从这些文件中创建了一个外部Hive表，比如table_A。由于其中一些条目是冗余的，所以我尝试创建另一个基于table_A的Hive表，比如table_B，它有不同的记录。我能够将table_B创建为一个非外部表(Hive仓库)。

浏览 1提问于2015-06-22得票数 0

回答已采纳

1回答

更改拼花文件的列值，而不更改拼花文件的名称，使_spark_metadata不被更改

、、

因此，我有一个火花结构化流作业，它将扁平的json消息数据存储在hdfs位置中的日期分区文件夹中，即/source/wireless/active_portal/activation/dt=current是否有一种方法可以通过使用spark命令或使用hive命令在hdfs位置的列中更改数据。,"modificationTime":1648655859206,"blockReplication":2,"blockSize":13421

浏览 5提问于2022-03-31得票数 1

0回答

ElasticSearch中的复合词处理-将形式"splitted“和"joined”视为相同

、、

现在我遇到了一个复合词的问题，比如“身体清洗”和“身体清洗”，“洗脸”和“洗脸”等。用“身体清洗”和“身体清洗”搜索结果不同。我需要一个技巧，通过这两种形式的关键字被视为相同。我需要一个算法解决方案。有吗？请帮帮忙。

浏览 8提问于2017-01-02得票数 3

2回答

清洗数据

、

我有一个像这样的数据集"25/06/2002",

浏览 12提问于2022-10-17得票数 0

回答已采纳

1回答

从scala/spark代码中添加单元格中不允许的列

、、

如果源数据有新列，我将尝试在Hive表中添加一个列。`dbo_nwd_orders` in a Hive compatible way.Updating Hive metastore in Spark SQL specific format InvalidOperationException(message:partition keys但是，如果我捕捉到生成的alter语句并从hive (HUE)执行它，我可以添加它，而不会出现问题。

浏览 2提问于2018-06-08得票数 2

回答已采纳

3回答

磁带备份方案-试图保存磁带

、

我继承了一个磁带备份方案，目前不清洗任何磁带。很贵，但没问题。我们目前每个季度都在运营，这将成为我们的越野场所。然后，我们在过渡期间运行增量。这些完整的文件是永久存档的。但是，我不能解释在完全备份之间无限期地恢复被用户删除(或损坏)的数据。我有一个包含400个文件的大型ESRI数据集。1月1日进行完全备份。用户处理数据集数周，然后在某一时间点将其存档到网络存储。用户不知道，数据集中的一个文件就会损坏，使整个数据集不可用。是否有任何可清洗的备份

浏览 0提问于2012-01-12得票数 2

回答已采纳

1回答

显示数据库命令在配置单元中不起作用？

我连接了hive，当我尝试使用下面的命令显示所有数据库时，我得到以下错误： Logging initializedusing configuration in jar:file:/home/techgene/apps/hive-0.12.0/lib/hive-common-0.12.0.jar!/hive

浏览 1提问于2014-07-31得票数 0

1回答

在sqooping数据之后，配置单元抛出错误

、、、、

我想将数据从数据库导入到HDFS中，然后填充hive表。我不能使用sqoop import --hive-import，因为sqoop会将数据从--target-dir移动到配置单元的metastore目录。因此，我必须创建hive模式sqoop create-hive-table，将hive表转换为parquet SET FILEFORMAT parquet，将hive表的位置更改为指向HDFS中合适的文件，最后使用sqoop im

浏览 1提问于2017-05-12得票数 0

1回答

当我删除安卓6上的应用程序时如何删除SharedPreferences

、

如何清洗我的SharedPreferences 如果我在Setting手动SharedPreferences中清除数据，但这不是我的解决方案。

浏览 2提问于2016-10-27得票数 1

回答已采纳

2回答

EMR火花节约服务器创建表: NoRouteToHost

、、、

org.apache.hadoop.hdfs.DistributedFileSystem.delete(DistributedFileSystem.java:703) at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$createTable$1.apply(

浏览 0提问于2016-10-12得票数 5

回答已采纳

1回答

Hive和Beeline jdbc:Hive 2在执行引擎tez中有不同的行为，用于插入百万条记录？

、、、

环境详情： hive.mv.files.thread=0/scratch/hive/a501276d-2015-435b-85c5-4d40534ac162/hive_2018-08-07_18-22-53_167_2618699013418541798-1/scratch/hive/a50127

浏览 2提问于2018-08-08得票数 0

回答已采纳

1回答

将数据从MySql同步到DynamoDb

、、

目前，我正试图找到一个(很好的)解决方案，说明如何将外部MySql数据库中的数据同步，该数据库与任何AWS完全分离为AWS DynamoDb。ERM () AWS似乎是要走的路，但似乎Hive脚本无法与外部MySql数据<

浏览 3提问于2016-08-24得票数 1

1回答

R中数据清洗的可能解决方案

、、、

我有一个数据集，其中包含两个日期和时间列。我想在同一行中对齐日期和时间列，如果第二个日期和时间列不匹配，则删除第二个日期和时间列右侧的所有内容。我的数据集问题的示例如下所示。注意时间1！经过清理的数据集最终版本如下所示：我想删除Date.1列右边的所有内容，直到Date.1=Date和Time.1=Time为止。

浏览 4提问于2016-05-08得票数 1

回答已采纳

2回答

蜂箱桌不见了

、

我使用Sqoop命令将数据从MySQL导入到Hive。sum(col4), sum(col5), sum(col6) from table1 WHERE $CONDITIONS group by col1, col2' --split-by col1 --hive-import--hive-home /root/dev/hive-0.11.0 --create-hive-table --hive-table hive</e

浏览 3提问于2014-03-21得票数 1

1回答

如何使用省略的列从ClickHouse查询csv数据

我想用engine=hdfs创建一个表，并将数据复制到一个带有engine=MergeTree的表中。

浏览 12提问于2021-12-16得票数 1

1回答

hive.cli.print.current.db中的hivesite.xml停止工作

、

我曾经在$ hive _HOME/conf/hive-site.xml中将hive.cli.print.current.db设置为true，这样数据库名就可以在hive提示符中自动显示。此配置最近停止工作，因此每次启动hive时都必须手动设置它的值。有没有人遇到过同样的问题，你的解决方案是什么？谢谢!

浏览 5提问于2014-04-02得票数 1

回答已采纳

5回答

火花放电查询蜂箱表

、

我正在使用CDH5.5hive> use default; Time taken: 0.341seconds, Fetched: 1 row(s) Time taken: 64.961 s

浏览 14提问于2016-03-17得票数 35

2回答

我在csv文件中有格式为1989-09-26T09:00:00.000+05:30的日期格式

在加载hive表中的数据时，当我从Hive表中获取行时，所有日期列中的数据都为NULL。另外，我只想获取日期，而不是时间戳，所以任何可能的解决方案。

浏览 2提问于2018-08-22得票数 0

1回答

添加到mysql中的新列在Hive中反映了相同的内容。

、、

我已经将这些数据直接导入到一个蜂巢表中。id name sal loc2 ram 234 teb4 Tim 567 CA我们怎么能做到呢？如果没有，我的用例的最佳解决方案是什么？

浏览 2提问于2017-03-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何处理非结构化数据，而Hive不能？

从现有外部表创建外部蜂巢表

更改拼花文件的列值，而不更改拼花文件的名称，使_spark_metadata不被更改

ElasticSearch中的复合词处理-将形式"splitted“和"joined”视为相同

清洗数据

从scala/spark代码中添加单元格中不允许的列

磁带备份方案-试图保存磁带

显示数据库命令在配置单元中不起作用？

在sqooping数据之后，配置单元抛出错误

当我删除安卓6上的应用程序时如何删除SharedPreferences

EMR火花节约服务器创建表: NoRouteToHost

Hive和Beeline jdbc:Hive 2在执行引擎tez中有不同的行为，用于插入百万条记录？

将数据从MySql同步到DynamoDb

R中数据清洗的可能解决方案

蜂箱桌不见了

如何使用省略的列从ClickHouse查询csv数据

hive.cli.print.current.db中的hivesite.xml停止工作

火花放电查询蜂箱表

我在csv文件中有格式为1989-09-26T09:00:00.000+05:30的日期格式

添加到mysql中的新列在Hive中反映了相同的内容。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐