在spark dataframe中生成hash key (dataframe中的唯一标识符列)

、、、、

我有一个包含超过100k行的表。我需要从连接的列中生成唯一的id，这将是唯一的。我尝试过md5函数，它适用于较少的数据，但对于大数据值是重复的。("Fruit", "pineapple", 2.59) df.withColu

浏览 51提问于2020-02-19得票数 0

回答已采纳

3回答

如何使用来自另一个dataframe的新值更新？

、

我想在spark中编写一个操作，其中我可以创建一个新的dataframe，其中包含来自dataframe A的行以及来自dataframe B的更新行和新行。首先，我创建了一个哈希列，其中只包含不可更新的列。这是唯一的身份。因此，假设col1和col2可以更改值(可以更新)，但是col3,..,coln是唯一的。",

浏览 3提问于2018-05-11得票数 4

回答已采纳

1回答

spark是否提供了一种生成64位随机盐的方法？

、

我正在使用Pyspark，并希望生成随机加密盐作为我的数据帧中的一个附加列。我想用它来为我的数据生成Hash或一种保留加密密码值的格式。Spark dataframe API中是否有生成加密盐的最佳实践？

浏览 2提问于2018-05-30得票数 0

1回答

错误:重载的可选方法值选择：

、、、

我正在dataframe1中读取CSV文件，然后在dataframe2中筛选一些列，在从dataframe1中选择dataframe2列时，我想将我的函数应用到列值上。.{*}.csv") "key1", utility.stringToGuid("username&qu

浏览 0提问于2018-11-04得票数 0

回答已采纳

1回答

对火花列中的空值抛出错误

、

我有一个Scala函数，它接受一个数据框架，并向它添加了一个额外的"id“列。生成的id是从数据帧中其他列的值派生的GUID。def addDeterministicID(colName: String, colNames: String*)(df: DataFrame): DataFrame = { val allColNames// return data frame wit

浏览 1提问于2020-12-10得票数 0

回答已采纳

1回答

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame在SQL中，它将类似于： select distinct(A.date) from table A where A.key in (select B.key from table

浏览 19提问于2021-05-28得票数 0

回答已采纳

2回答

是否有一种方法可以向添加值范围的列？

、、、

+---++---+| 11|+---++---+------++---+------+| 11| 2 |+---+------+ 我的dataframe中没有一个列包含唯一的值。那么，是否有一种方法可以将带有row_count的<e

浏览 2提问于2020-10-19得票数 0

回答已采纳

1回答

星星之火3.2.2多次连接同一数据帧不删除列

、、

在两次加入表后，我们从output DataFrame中删除key_hash列。此代码在火花版本3.0.1中运行良好。自从升级到3.2.2版本以来，行为已经改变，在第一次转换操作期间，key_hash字段被从输出DataFrame中删除，但是当执行第二次转换操作时，key_hash字段仍然停留在output_df中</

浏览 4提问于2022-09-16得票数 0

3回答

Spark SQL广播哈希连接

、

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。How do I tell spark to use the bro

浏览 7提问于2016-05-27得票数 16

回答已采纳

1回答

如何从dataframe中创建字符串索引而不是数字？

、、、

我想从dataframe的列中显示的内容创建唯一的行标识符，而不是索引列。例如,from pprint import pprint 0 Qw9457 Mouse 20

浏览 26提问于2019-08-06得票数 0

1回答

可以很容易地从PySpark数据帧创建Kudu表吗？

、、

理想情况下，以下代码片段可以正常工作：from kudu.client import Partitioning schema = df.schema partitioning = Partitioning().add_hash_partitions然而，在Scala中，你可以做到这一点(从)： kuduContext.c

浏览 5提问于2018-10-31得票数 0

1回答

DataFrames上的Apache Spark* Python余弦相似度*

、、、、

对于推荐系统，我需要计算整个Spark DataFrame的所有列之间的余弦相似度。在Pandas中，我经常这样做：import pandas as pd metrics.pairwise.cosine_similarity(df.T,df.T) 这会生

浏览 3提问于2017-05-12得票数 13

1回答

如何根据条件将Spark* -多行合并为一个*

、、

Dataframe 1：12345,B,D,2002-11-12,MobileDataframe2我必须加入Dataframe 1和Dataframe 2，并在DF2中的每条记录的输出中生成1行记录。我的输出应该如下，12345,Y,Y,2002-11-12,Mobile 列<em

浏览 0提问于2020-08-28得票数 0

1回答

Impala vs SparkSQL:内置函数转换: fnv_hash

、、、

我正在使用Impala中的fnv_hash将一些字符串值转换为数字。现在我正在迁移到Spark SQL，在Spark SQL中有没有类似的函数可以使用？将字符串值映射到数字的几乎1-1函数应该可以工作。谢谢!

浏览 13提问于2017-01-26得票数 3

1回答

通过集群提高SparkSQL查询性能

我们经常需要在查询中使用JOIN大表，并且不需要很长时间就会遇到与它们相关的性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时，我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等，而且它们可能用于提高慢速运行的SparkSQL 查询的性能不幸的是，我找不到足够的例子，让我清楚地理解它们，并开始将它们应用到我的查询中。我主要是寻找一些例子来解释它们的语法、

浏览 5提问于2020-06-05得票数 0

1回答

标识唯一标识pandas DataFrame行的最小列子集

、、、

给定一个包含多列分类变量的pd.DataFrame，标识这些列中唯一标识pd.DataFrame行的子集的最有效方法是什么(假设存在这样的子集)？在许多情况下，可能已经有一个唯一的索引。例如，下面的“ID”列： ? 否则，必须组合多个列以形成唯一标识符。例如，下面的列</em

浏览 21提问于2021-07-05得票数 1

1回答

在Spark上生成确定性ID列

、、、

我使用Spark窗口函数row_number()为具有嵌套结构的复杂DataFrame生成ID。然后，我提取DataFrame的一部分以创建多个表作为输出，其中包括这个键。但是，Spark只会在操作被触发时物化该表，所以当提取的表保存到HDFS中时，它最终会生成ID。另一方面，在处理大型DataFrames和转换时，Spark可能会打乱数据，从而更改row_number()可能<e

浏览 1提问于2017-11-21得票数 1

1回答

在Spark中，连接非常大的数据(1000300行)和相对较小的数据(6090行)的最有效方法是什么？

、、

在猪拉丁语中，为了这个目的，我们有一种特殊的连接，称为片段复制连接，以连接一个非常大的关系到一个较小的关系。在SparkSQL中，是否有任何方法可以在非常大的dataframe和较小的dataframe之间执行与PigLatin类似的有效连接。

浏览 0提问于2018-06-19得票数 0

回答已采纳

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataF

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

熊猫，将多个csv导入到一个具有多列的数据框架中

、、、

我有12个csv文件，我想要导入到一个数据框架中的列wise。15.csv', 'experiment_timesteps_20.csv']290705.097424038

浏览 0提问于2020-10-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用来自另一个dataframe的新值更新？

spark是否提供了一种生成64位随机盐的方法？

错误:重载的可选方法值选择：

对火花列中的空值抛出错误

如何通过在spark中使用IN子句传递另一个列值来检索列值

是否有一种方法可以向添加值范围的列？

星星之火3.2.2多次连接同一数据帧不删除列

Spark SQL广播哈希连接

如何从dataframe中创建字符串索引而不是数字？

可以很容易地从PySpark数据帧创建Kudu表吗？

DataFrames上的Apache Spark* Python余弦相似度*

如何根据条件将Spark* -多行合并为一个*

Impala vs SparkSQL:内置函数转换: fnv_hash

通过集群提高SparkSQL查询性能

标识唯一标识pandas DataFrame行的最小列子集

在Spark上生成确定性ID列

在Spark中，连接非常大的数据(1000300行)和相对较小的数据(6090行)的最有效方法是什么？

从PySpark DataFrame列中删除元素

熊猫，将多个csv导入到一个具有多列的数据框架中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐