根据特定条件修改Spark dataframe中的列

、、、、

我想要转换clientIPInt(它是Int格式的，嗯！)在单独的列上应用某些公式后。下面是我尝试过的。16777216L) + ((col & 65280L) * 256L) + ((col & 16711680L) / 256L) + ((col / 16777216L) & 255L)) } 我真的不想将dataframedf_A转换为列的Datasetcase类，因为dataframe中有140多列</em

浏览 19提问于2019-04-11得票数 0

回答已采纳

1回答

基于行值的Spark选择列

、、、

浏览 22提问于2020-08-28得票数 0

2回答

Spark Java编辑列中的数据

、、、

我想遍历spark DataFrame中列的内容，如果满足特定条件，则更正单元格中的数据 +-------------++-------------++-----+|0 |+-----++-----+ 假设我想要在列的值为null时显示其他内容，我尝试使用 Column.when() Data

浏览 44提问于2019-02-13得票数 4

1回答

如何计算dataframe列的平均值并找到前10%

、

我对Scala和Spark非常陌生，我正在用棒球统计做一些自制的练习。我正在使用case类，创建一个RDD并为数据分配一个模式，然后将其转换为一个DataFrame，这样我就可以使用SparkSQL来通过满足特定条件的统计数据来选择玩家组。一旦我有了我感兴趣的球员的子集，我想找到一个列的平均值；例如打击平均数或打点。从那以后，我想根据所有球员的平均表现，把他们分成百分位组；前10%，最低10%，40

浏览 0提问于2015-07-22得票数 14

回答已采纳

3回答

修改Spark* dataframe中的结构列*

、、、、

我有一个PySpark dataframe，其中包含一个列"student“，如下所示： "name" : "kaleem",}在dataframe中，这方面的架构是： name: String, 我需要将该列修改为 &quo

浏览 3提问于2020-05-27得票数 2

回答已采纳

1回答

过滤Vector类型的"features“列

、

我正在开发一个程序，在该程序中，我需要根据特定条件显示数据集中的特定行。这些条件适用于我为机器学习模型创建的features专栏。这个features列是一个向量列，当我试图通过传递一个Vector值来过滤它时，我得到了以下错误： Exception in thread "main" java.lang.RuntimeException: Unsupported literal type class org.apache.spark

浏览 1提问于2017-07-07得票数 2

1回答

在现有列的基础上在DataFrame中添加新列

、、

我有一个包含日期时间列的csv文件："2011-05-02T04:52:09+00:00“。我使用scala，文件被加载到spark DataFrame中，我可以使用jodas时间来解析日期：import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.spark.csv", Map(&qu

浏览 0提问于2015-04-28得票数 3

回答已采纳

1回答

使用python pandas选择具有条件的特定列

、

在我的Dataframe中，我希望仅根据特定列中的特定条件选择特定列。 df = pd.read_csv('cancer_data.csv') df[df['diag

浏览 0提问于2019-04-10得票数 0

1回答

熊猫的数据能有类型的列表吗？

、、、、

我是Pandas的新手，我处理一个dataset，其中一个列是string和pipe (|)分隔的值。现在，我有一项任务，要删除这个分隔的字段中任何不符合特定条件的文本。我天真的方法是逐行迭代dataframe，并将字段分解为list并以这种方式进行验证。然后将修改后的行写回原始的dataframe。请参阅此元示例： for index, row in dataframe<

浏览 1提问于2016-09-06得票数 4

回答已采纳

1回答

在R中检查数据集的一致性

、

我有3列名为“学生名”、“最后分数”和“年级”。期末考试有一定的成绩范围。分数>=80被认为是A级。我的问题是，如何将获得A的学生人数与获得最终成绩>=80的学生人数进行比较。

浏览 6提问于2022-09-13得票数 0

1回答

仅为转换使用Spark管道

、、

我正在致力于一个项目，其中可配置的管道和谱系跟踪的变化，火花DataFrames都是必不可少的。这个管道的端点通常只是修改了DataFrames (把它看作是一个ETL任务)。对我来说最有意义的是利用已经存在的Spark管道API来跟踪这些更改。特别是修改(根据其他内容添加列，等等)实现为自定义Spark变压器。另一种选择是将这些转换实现为一系列UDF，并基于DataFra

浏览 2提问于2017-12-14得票数 3

1回答

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

、、、、

custom encoding , we'll do this within mlflow later现在，让我们为模型创建一个包装器来对模型中的函数进行编码spark dataframe to test it on spark# Load model as a Spark UDF.loaded_model

浏览 4提问于2021-12-09得票数 0

2回答

当列是可选的时，如何从数据框中选择

、、、

我有一个Spark (scala) dataframe，其中的一些dataframe列是可选的，也就是说，有时它们并不存在。有没有一种非常简单的方法来修改我的df.select语句，使spark不关心列可能不存在？我希望会有某种“可选”的称谓。

浏览 1提问于2018-07-03得票数 4

2回答

计算火花DataFrame上的斯皮尔曼相关性

、、

我想对当前在Spark DataFrame中的数据运行Spearman关联。目前，只有皮尔逊相关性计算可用于对DataFrame中的列进行操作。似乎我可以使用Spark的MLlib进行Spearman关联，但我需要将两个RDDDouble传递给该函数。根据当前模式，我要比较的列是双精度的。有没有一种方法可以选择我想要的列

浏览 1提问于2015-08-25得票数 1

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的<

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

基于标准创建估算窗口(DataFrame)

、、

我正在研究如何根据特定条件选择几行(具体地说是-15到-5)。我们有一个事件(日期)列表和一个包含所有按日期排序的BitCoin订单的大型DataFrame。在这个DataFrame中，我们有一个列，如果在DataFrame中找到了Events中的值，它就用'True‘标记一行。我想要做的是，当在该列中找到' True‘时，Python从Tr

浏览 10提问于2019-01-06得票数 0

回答已采纳

1回答

Dataframe上的Pyspark列

、、

我正在尝试根据某些列的值在dataframe上创建一个新列。它在所有情况下都返回null。有人知道这个简单的例子出了什么问题吗？df = pd.DataFrame([[0,1,0],[1,0,0],[1,1,1]],columns = ['Foo','Bar','Baz']) spark_df = spark.createDataFrame1 0 Non

浏览 2提问于2018-09-26得票数 2

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

、、

按照官方的，我们不能向DataFrame添加特定的单元分区DataFrame df = hiveContext.read如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read()

浏览 3提问于2016-01-07得票数 7

回答已采纳

1回答

Spark scala基于其他DataFrame修改DataFrame列

、、

我是spark和scala的新手，想知道如何在两个数据帧之间执行操作。在我的例子中，我有这两个数据帧： DF1： ID_EMPLOYEE sup_id_1 desc_1 sup_id_2 desc_2 ...DF2从DF1修改desc_*列，因为在DF1中它们是空的。填充它的方法是查看DF1的sup_id_*列和DF2的Key列，在DF1的

浏览 21提问于2020-12-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

基于行值的Spark选择列

Spark Java编辑列中的数据

如何计算dataframe列的平均值并找到前10%

修改Spark* dataframe中的结构列*

过滤Vector类型的"features“列

在现有列的基础上在DataFrame中添加新列

使用python pandas选择具有条件的特定列

熊猫的数据能有类型的列表吗？

在R中检查数据集的一致性

仅为转换使用Spark管道

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

当列是可选的时，如何从数据框中选择

计算火花DataFrame上的斯皮尔曼相关性

将StringType列添加到现有的DataFrame中，然后应用默认值

基于标准创建估算窗口(DataFrame)

Dataframe上的Pyspark列

如何在spark的数据中“负选择”列

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

Spark scala基于其他DataFrame修改DataFrame列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐