Spark dataframe将时间戳数据加载到hive表时出现问题

、、

我正在尝试将数据帧加载到配置单元表中。但它增加了额外的30分钟。我试过下面的方法从pyspark导入SparkContext，HiveContext sc = SparkContext() hive_context = HiveContext(sc) df_load.write.mode但是在表中，它被加载为"2020-09-01 09:30:00“。如何解决这个问题。

浏览 48提问于2020-09-01得票数 0

1回答

向配置单元表加载数据时添加时间戳

、

我正在将数据加载到Hive表中，原始数据没有时间戳，如何在将数据加载到hive表中时添加时间戳？

浏览 0提问于2016-11-04得票数 0

2回答

星星之火SQL到蜂巢表-日期-时间域小时错误

、、、

我面临这样的问题:当我输入一个带有spark.sql数据的Hive时间戳字段时，时间被奇怪地更改为21:00:00！我有一个用spark.sql读取的csv文件。我读取该文件，将其转换为dataframe并将其存储在一个Hive表中。此文件中的一个字段是日期，格式为"3/10/2017“。我想输入的Hive字段是格式的(我使用此<em

浏览 1提问于2017-11-22得票数 1

回答已采纳

2回答

从Spark Python到Pandas的时间戳往返

、、、

如何实现时间戳数据从Spark Python到Pandas的往返转换？我从Spark中的Hive表中读取数据，希望在Pandas中进行一些计算，然后将结果写回Hive。只有最后一部分失败了，将Pandas时间戳转换回Spark DataFrame时间戳。DataFrame的d

浏览 14提问于2017-03-04得票数 7

1回答

在HDFS上写入数据需要很长时间

在HDFS上写入文件创建多个零件文件(200)并花费很长时间我正在将配置单元表(使用SqlContext.sql)加载到数据帧1(6K记录)并注册到临时表。我将临时表与另一个配置单元表(500万条记录)连接在一起，并加载到dataframe 2中。我使用左外部连接更新dataframe 1和dataframe 2的值，并尝试将dataf

浏览 71提问于2019-05-18得票数 2

1回答

我使用的是Spark 1.4.1版本。我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.shuffle.partitions默认设置为200。我想知道是否有什么好方法可以将我的Hive</em

浏览 1提问于2016-03-28得票数 1

2回答

如何升级Azure数据库中的Hive版本

、、、、

org.apache.hadoop.hive.ql.metadata.HiveException： java.lang.UnsupportedOperationException：不支持时间戳。/data_analysis/pre-processed/"我在Azure数据块中使用hive，当我运行命令spark_session.conf.get("spark.sql.hi

浏览 4提问于2020-09-13得票数 1

1回答

将系统时间戳插入到单元表中的时间戳字段中

、、

我正在使用Hive 0.8.0版本。我希望将系统时间戳插入时间戳字段，同时将数据加载到单元表中。详细内容:我有一个包含两个字段的文件，如下所示：1 John3 Sam 现在，我希望将这个文件与额外的列"created_date".一起加载到hive表中。因此，我创建了带有额外文件的蜂巢

浏览 10提问于2014-05-29得票数 2

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

、、、

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？将表保存为星火目录：spark.sql("create table my_table as select

浏览 2提问于2018-11-15得票数 1

回答已采纳

1回答

是否有可能在没有Hive的情况下使用带有ORC文件格式的Spark？

、、、、

我正在使用HDP 2.6.4，更具体地说，Hive1.2.1与tez0.7.0，Spark2.2.0。对dataframe进行处理。

浏览 0提问于2018-06-08得票数 1

回答已采纳

4回答

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

、、、

我希望使用PySpark将数据保存到一个Hive表中。指出： from pyspark.sql import HiveContext sqlConte

浏览 2提问于2015-07-17得票数 9

回答已采纳

2回答

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

、、

在PySpark中，我使用md5函数散列一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1") df_hive= df_hive.select([sqlf.col(

浏览 2提问于2021-04-26得票数 1

回答已采纳

1回答

星星之火时间戳类型不被接受。

、、

我有一个，其中包含一个字段作为时间戳。我正在将数据存储到创建hive外部表的HDFS位置。Hive表包含具有时间戳类型的字段。但是，当从外部位置读取数据时，单元是将时间戳字段填充为表中的空白值。我的星星之火数据查询： df.select($"ipAddress", $&qu

浏览 2提问于2018-03-28得票数 1

回答已采纳

2回答

蜂巢表上的时间戳

、、、、

我正在尝试将数据从Oracle加载到Hive，作为拼板。每次加载包含日期/时间戳列的表时，它都会自动将这些列转换为BIGINT。是否可以使用sqoop并将时间戳/日期格式加载到单元格中？已经尝试过先在蜂巢中创建表，然后使用黑斑马来加载数据INPATH的拼花文件。仍因错误而失败 “文件XX的第XX列的Parquet模式不兼容:

浏览 0提问于2017-04-20得票数 1

回答已采纳

1回答

在Sparklyr中创建新的Spark表或数据框最有效的方法是什么？

、、、、

这个问题是肤浅的，因为它在上面提出，但我希望得到更多的信息，而不是纯粹的效率，所以如果你想编辑我的问题，我对此没有意见…… 我在Hive中有一些表，我们称它们为Activity2016、Accounts2016我想从2016年的数据开始，合并姓名和当前地址的两个表，过滤一些活动和帐户详细信息，然后将两种不同的方式与2017年的帐户信息合并，特别是统计留在自己地址的人数与更改地址的人数。2)我不应该也可以直接将它发送到已写入的Hive表中吗?什么时候它最终会成为缓存对象、

浏览 15提问于2017-06-24得票数 4

回答已采纳

1回答

使用.saveAsTable()将表保存到配置单元元存储，如何重新加载？

、、

我在我的DataFrame上使用了.saveAsTable，现在它存储在我的HDFS hive仓库元存储中。如何将其重新加载到Spark SQL中？我已经删除了我的集群(Azure HDInsight)，并创建了一个新的集群，确认了我的Hive元存储位置是相同的，并且目录仍然在那里。我需要再次将其作为持久表加载，而不是像使用PowerBI/Spark连接器那样作为临时表加载。到目前为止，我找到的唯一方法是将目录重新加

浏览 0提问于2018-03-19得票数 1

1回答

使用Sqoop实现Hive表动态分区加载

、

我有一个名为dept的MySQL表，我基于时间戳列ts将其加载到配置单元外部表dept表中，作为增量附加检查列last-value。这可以很好地工作，现在我想根据dept_name和ts列将动态分区添加到我的配置单元表dept中。我知道我可以在sqoop之外创建表动态分区，但在将数据加载到动态分区方面需要帮助。我看过一个使用--hive-partition-ke

浏览 22提问于2016-08-26得票数 0

1回答

连接到tableau中的spark数据框

、、、

我们试图通过spark SQL连接在tableau中生成报告，但我发现我们最终连接到了hive meta-store。如果是这样的话，这种新的spark SQL连接有什么优势呢？有没有一种方法可以使用spark SQL从tableau连接到持久的spark数据帧。

浏览 0提问于2016-02-05得票数 0

2回答

拼接面板表中时间戳coulmn的sqoop导入错误

将SQL Server表映射到拼接台表时遇到错误。我制作了拼图表格，使SQL Server表格与相应的列数据类型相匹配。hive> select updated_at from

浏览 1提问于2016-10-03得票数 0

1回答

无法使用pyspark将dataframe写入配置单元分区镶嵌表

、、

我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。Spark2.3和分区配置单元表当我试图<

浏览 28提问于2019-05-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

向配置单元表加载数据时添加时间戳

星星之火SQL到蜂巢表-日期-时间域小时错误

从Spark Python到Pandas的时间戳往返

在HDFS上写入数据需要很长时间

将配置单元分区表加载到Spark Dataframe

如何升级Azure数据库中的Hive版本

将系统时间戳插入到单元表中的时间戳字段中

HDP 3.0不能保存表格以保存细胞亚稳态

是否有可能在没有Hive的情况下使用带有ORC文件格式的Spark？

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

星星之火时间戳类型不被接受。

蜂巢表上的时间戳

在Sparklyr中创建新的Spark表或数据框最有效的方法是什么？

使用.saveAsTable()将表保存到配置单元元存储，如何重新加载？

使用Sqoop实现Hive表动态分区加载

连接到tableau中的spark数据框

拼接面板表中时间戳coulmn的sqoop导入错误

无法使用pyspark将dataframe写入配置单元分区镶嵌表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐