我正在尝试获取列中的最大值,并编写了以下代码。val max = df.withColumn("max", lit(df.agg(max($"id")).as[Int].first))error: recursivevalue max needs type
val max = df.withColumn("max", lit(df.agg(max($"id&
我知道使用.withColumn()向星火.withColumn()添加新列的方法,以及返回DataFrame的UDF。我还知道,我们可以将结果DataFrame转换为DataSet。是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递),就像我们以前使用RDD那样,用于追加一个新列。
如何在地图、过滤器等正常操作中访问新列?=> b + "ing")
我在dataset中有一个列(call是col_id,它包含可能在broadcast_array中的IntegerType值,但它们可能不是。我只是尝试创建一个新列(称为new_col),以检查每一行的col_id值是否在broadcast_array中。如果是这样,新的列值应该是Available,否则它可以是null。所以我有这样的东西:
val my_new_df = df.withColumn("n
我有一个名为“description”值的dataframe列,格式如下我想把它解析成3列,如下所示| ABC | TYPE1 | STORE NAME | ABC XXXXXXXXXXXX STORE NAME ABC TYPE1 |
我尝试了类似中建议的方法它适用于简单的UDF函数,但不适用于我编写的<