pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
我有一个查询,我对结果感到满意,但不是为了它的性能查询是,我想从文本中选择一些单词(不允许部分单词)(即我想选择:“狗”而不是“狗”)我已经用"like '% text %‘“测试了相同的select,速度要快得多,但是没有正确地选择单词边界作为”text开始句子,....there有太多的可能性...
有什么方法可以改进
我正在尝试确保dataframe中的特定列不包含任何非法值(非数字数据)。为此,我尝试使用使用rlike的正则表达式匹配来收集数据中的非法值:我需要收集包含字符串字符、空格、逗号或任何其他不像数字的字符的值。我试过了:
spark.sql("select * from tabl where UPC not rlike '[0-9]*'&qu