腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
spark
dataframe
中
生成
hash
key
(
dataframe
中
的
唯一
标识符
列
)
、
、
、
、
我有一个包含超过100k行
的
表。我需要从连接
的
列
中
生成
唯一
的
id,这将是
唯一
的
。我尝试过md5函数,它适用于较少
的
数据,但对于大数据值是重复
的
。("Fruit", "pineapple", 2.59) df.withColu
浏览 51
提问于2020-02-19
得票数 0
回答已采纳
3
回答
如何使用来自另一个
dataframe
的
新值更新?
、
我想在
spark
中
编写一个操作,其中我可以创建一个新
的
dataframe
,其中包含来自
dataframe
A
的
行以及来自
dataframe
B
的
更新行和新行。首先,我创建了一个哈希
列
,其中只包含不可更新
的
列
。这是
唯一
的
身份。因此,假设col1和col2可以更改值(可以更新),但是col3,..,coln是
唯一
的
。",
浏览 3
提问于2018-05-11
得票数 4
回答已采纳
1
回答
spark
是否提供了一种
生成
64位随机盐
的
方法?
、
我正在使用Pyspark,并希望
生成
随机加密盐作为我
的
数据帧
中
的
一个附加
列
。我想用它来为我
的
数据
生成
Hash
或一种保留加密密码值
的
格式。
Spark
dataframe
API
中
是否有
生成
加密盐
的
最佳实践?
浏览 2
提问于2018-05-30
得票数 0
1
回答
错误:重载
的
可选方法值选择:
、
、
、
我正在
dataframe
1
中
读取CSV文件,然后
在
dataframe
2
中
筛选一些
列
,在从
dataframe
1
中
选择
dataframe
2
列
时,我想将我
的
函数应用到
列
值上。.{*}.csv") "
key
1", utility.stringToGuid("username&qu
浏览 0
提问于2018-11-04
得票数 0
回答已采纳
1
回答
对火花
列
中
的
空值抛出错误
、
我有一个Scala函数,它接受一个数据框架,并向它添加了一个额外
的
"id“
列
。
生成
的
id是从数据帧
中
其他
列
的
值派生
的
GUID。def addDeterministicID(colName: String, colNames: String*)(df:
DataFrame
):
DataFrame
= { val allColNames// return data frame wit
浏览 1
提问于2020-12-10
得票数 0
回答已采纳
1
回答
如何通过
在
spark
中使用IN子句传递另一个
列
值来检索
列
值
、
、
我有一个场景,通过where条件从同一个
DataFrame
中使用另一个
列
从
DataFrame
读取一
列
,这个值作为IN条件通过,从另一个
DataFrame
中选择相同
的
值,我如何在
spark
DataFrame
在
SQL
中
,它将类似于: select distinct(A.date) from table A where A.
key
in (select B.
key
from table
浏览 19
提问于2021-05-28
得票数 0
回答已采纳
2
回答
是否有一种方法可以向添加值范围
的
列
?
、
、
、
+---++---+| 11|+---++---+------++---+------+| 11| 2 |+---+------+ 我
的
dataframe
中
没有一个
列
包含
唯一
的
值。那么,是否有一种方法可以将带有row_count
的
<e
浏览 2
提问于2020-10-19
得票数 0
回答已采纳
1
回答
星星之火3.2.2多次连接同一数据帧不删除
列
、
、
在
两次加入表后,我们从output
DataFrame
中
删除
key
_
hash
列
。 此代码
在
火花版本3.0.1
中
运行良好。自从升级到3.2.2版本以来,行为已经改变,
在
第一次转换操作期间,
key
_
hash
字段被从输出
DataFrame
中
删除,但是当执行第二次转换操作时,
key
_
hash
字段仍然停留在output_df
中</
浏览 4
提问于2022-09-16
得票数 0
3
回答
Spark
SQL广播哈希连接
、
我正在尝试使用SparkSQL对数据帧执行广播散
列
联接,如下所示:我遇到
的
问题是,我需要使用SQL来构造我
的
sparkSQL (我需要用一个ID列表连接大约50个表,并且不想手动编写这个SQL语句)。How do I tell
spark
to use the bro
浏览 7
提问于2016-05-27
得票数 16
回答已采纳
1
回答
如何从
dataframe
中
创建字符串索引而不是数字?
、
、
、
我想从
dataframe
的
列
中
显示
的
内容创建
唯一
的
行
标识符
,而不是索引
列
。例如,from pprint import pprint 0 Qw9457 Mouse 20
浏览 26
提问于2019-08-06
得票数 0
1
回答
可以很容易地从PySpark数据帧创建Kudu表吗?
、
、
理想情况下,以下代码片段可以正常工作:from kudu.client import Partitioning schema = df.schema partitioning = Partitioning().add_
hash
_partitions然而,
在
Scala
中
,你可以做到这一点(从): kuduContext.c
浏览 5
提问于2018-10-31
得票数 0
1
回答
DataFrames上
的
Apache
Spark
Python余弦相似度
、
、
、
、
对于推荐系统,我需要计算整个
Spark
DataFrame
的
所有
列
之间
的
余弦相似度。
在
Pandas
中
,我经常这样做:import pandas as pd metrics.pairwise.cosine_similarity(df.T,df.T) 这会
生
浏览 3
提问于2017-05-12
得票数 13
1
回答
如何根据条件将
Spark
-多行合并为一个
、
、
Dataframe
1:12345,B,D,2002-11-12,Mobile
Dataframe
2我必须加入
Dataframe
1和
Dataframe
2,并在DF2
中
的
每条记录
的
输出中
生成
1行记录。我
的
输出应该如下,12345,Y,Y,2002-11-12,Mobile
列
<em
浏览 0
提问于2020-08-28
得票数 0
1
回答
Impala vs SparkSQL:内置函数转换: fnv_
hash
、
、
、
我正在使用Impala
中
的
fnv_
hash
将一些字符串值转换为数字。现在我正在迁移到
Spark
SQL,
在
Spark
SQL中有没有类似的函数可以使用?将字符串值映射到数字
的
几乎1-1函数应该可以工作。谢谢!
浏览 13
提问于2017-01-26
得票数 3
1
回答
通过集群提高SparkSQL查询性能
我们经常需要在查询中使用JOIN大表,并且不需要很长时间就会遇到与它们相关
的
性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时,我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等,而且它们可能用于提高慢速运行
的
SparkSQL 查询
的
性能不幸
的
是,我找不到足够
的
例子,让我清楚地理解它们,并开始将它们应用到我
的
查询
中
。我主要是寻找一些例子来解释它们
的
语法、
浏览 5
提问于2020-06-05
得票数 0
1
回答
标识
唯一
标识pandas
DataFrame
行
的
最小列子集
、
、
、
给定一个包含多
列
分类变量
的
pd.
DataFrame
,标识这些
列
中
唯一
标识pd.
DataFrame
行
的
子集
的
最有效方法是什么(假设存在这样
的
子集)?
在
许多情况下,可能已经有一个
唯一
的
索引。例如,下面的“ID”
列
: ? 否则,必须组合多个
列
以形成
唯一
标识符
。例如,下面的
列</em
浏览 21
提问于2021-07-05
得票数 1
1
回答
在
Spark
上
生成
确定性ID
列
、
、
、
我使用
Spark
窗口函数row_number()为具有嵌套结构
的
复杂
DataFrame
生成
ID。然后,我提取
DataFrame
的
一部分以创建多个表作为输出,其中包括这个键。但是,
Spark
只会在操作被触发时物化该表,所以当提取
的
表保存到HDFS
中
时,它最终会
生成
ID。另一方面,
在
处理大型DataFrames和转换时,
Spark
可能会打乱数据,从而更改row_number()可能<e
浏览 1
提问于2017-11-21
得票数 1
1
回答
在
Spark
中
,连接非常大
的
数据(1000300行)和相对较小
的
数据(6090行)
的
最有效方法是什么?
、
、
在
猪拉丁语
中
,为了这个目的,我们有一种特殊
的
连接,称为片段复制连接,以连接一个非常大
的
关系到一个较小
的
关系。
在
SparkSQL
中
,是否有任何方法可以
在
非常大
的
dataframe
和较小
的
dataframe
之间执行与PigLatin类似的有效连接。
浏览 0
提问于2018-06-19
得票数 0
回答已采纳
2
回答
从PySpark
DataFrame
列
中
删除元素
我知道PySpark DataFrames是不可变
的
,所以我想创建一个新
列
,该
列
是根据应用到PySpark
DataFrame
的
现有
列
的
转换
生成
的
。我
的
数据太大了,无法使用collect()。该
列
是
唯一
int列表(在给定列表
中
不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataF
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
熊猫,将多个csv导入到一个具有多
列
的
数据框架
中
、
、
、
我有12个csv文件,我想要导入到一个数据框架
中
的
列
wise。15.csv', 'experiment_timesteps_20.csv']290705.097424038
浏览 0
提问于2020-10-07
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
大数据有道之spark选择去重
大数据有道之spark筛选去重
Spark之SparkSQL
掌握Python技巧:如何比较两个Excel表格并发现隐藏的差异
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券