Pyspark替换for循环超过日期

文章/答案/技术大牛

发布

1回答

、、、、

我有一个日期数组： date_set = ["2019-01-01", "2019-02-01", "2019-03-01"....."2020-01-01"] 我有这个数据框架： |DATE& ).groupBy("ID").agg(F.sum("VALUE").alias("VALUE")) 我想避免这样的for循环</e

浏览 10提问于2020-12-11得票数 0

1回答

Pyspark -用pysaprk中的第一个单词替换2个或更多连续单词

、、

我有一个超过10000行的pyspark数据帧。我想用第一次出现的单词替换连续的单词。我希望这是在pyspark中完成的。这是包含单词列表的pyspark表。每个单词列表都与每个日期相关。

浏览 14提问于2020-10-31得票数 0

1回答

在pyspark数据帧中用数字替换字符串

、

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？

浏览 9提问于2019-07-25得票数 0

1回答

GroupBy和Count与WHERE相结合

、、、、

06 1我如何才能做到这一点，最好是在PySpark

浏览 0提问于2018-12-11得票数 1

回答已采纳

1回答

TypeError: Datetime减法只能应用于日期时间序列

、、、

我试图用pyspark.pandas库替换熊猫，当我尝试这样做时: pdf是一个pyspark.pandas数据格式我得到了以下错误： File "C:\Users\abc\Anaconda3\envs\test\lib\site-packages\pyspark\pandas\data_type_ops\datetime_ops.pyTypeError:

浏览 13提问于2022-03-22得票数 1

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

partitionBy在使用S3保存数据集时花费的时间太长

、、、、

我正在尝试使用partitionBy在S3上使用pyspark保存数据集。我在日期列上进行分区。星火作业需要超过一个小时才能执行。

浏览 0提问于2019-06-07得票数 0

1回答

使用pyspark进行负值补偿的高效代码

、、、

我正在处理一个数据集，其中包含有关该特定项目的售出数量的逐项日期信息。然而，在“售出的数量”一栏中有一些负值，我打算将其归因于此。这里使用的逻辑是将这些负值替换为日期级别的每个商品的售出数量的模式。我已经计算了售出数量的每个不同值的计数，并获得了特定项目在每个给定日期的最大售出数量。但是，我找不到一个函数，可以用每个商品的最大售出数量*日期组合来替换负值。我是pyspark的新手。

浏览 30提问于2021-06-26得票数 0

1回答

如何为在一段时间内或之前创建的每个ID生成行？

、、、、

我正在用pyspark开发一个笔记本，我有这样一个df：其中created_at变量是id成为客户端的日期。我想把这个df转换成一个df，它显示了那个月的所有客户端，所以输出应该是这样的：我知道我必须在这里做一个循环--我只是不知道怎么做，有人能帮忙吗？ps:我正在和pyspark一起做这个开发

浏览 2提问于2021-01-18得票数 1

1回答

如何用一个纯PySpark函数替换Timedelta Pandas函数？

、、、

我正在用PySpark开发一个小脚本，它生成一个日期序列(比今天的日期早36个月)和(同时应用截断为该月的第一天)。有没有办法用一个纯PySpark函数替换这个来自Pandas的Timedelta？import pandas as pdfrom pyspark.sql.functions importminDate| maxDate||20

浏览 17提问于2019-10-13得票数 1

回答已采纳

1回答

在没有udf的火花放电中修复日期

、、

我试图通过将dd/mm/yyyy替换为yyyy来解析pyspark中的日期列。import pyspark.sql.functions as Fsc = spark.sparkContextsqlc = pyspark.sql.SQLContext(sc) df = sqlc.createDataFrame([('01/01

浏览 0提问于2018-10-22得票数 0

回答已采纳

1回答

在Pyspark中选择日期间隔超过6个月的记录

、、、

我正在尝试获取那些间隔超过6个月的日期，从时间顺序开始。如果2019-03-04为i，我希望循环遍历后续日期，直到找到相隔6个月以上的最近日期。这个日期，2019-12-05 (来自上表)将成为新的i，我需要遍历以下日期的其余部分，以找到相隔6个月以上的下一个日期。这样做是为了为每个Id找到一组日期。) * 12 + (d2.month - d1.month) >= 6 ): el

浏览 25提问于2021-07-25得票数 0

2回答

在pyspark* dataframe中从lat-long查找状态名称*

、、

我有一个pyspark数据帧df，它保存了大量的rows.Once列是lat-long。我想从经纬度中找到州的名称。

浏览 12提问于2020-07-01得票数 0

回答已采纳

1回答

根据对象中的一个字段将JavaRDD的每个对象存储到S3

、、、

因此，日期为2021-07-27的对象位于一个文件夹中，其他文件夹也是如此。

浏览 4提问于2021-07-29得票数 0

1回答

是否有方法在使用PySpark时查看TQDM进度条？

、、、

在使用PySpark的for循环中使用TQDM时，进度条消失，我看到[Stage 701:=======================================>(7 + 2) / 10]替换了进度条。import pandas as pdimport pyspark.sql.functions as F start_date = "2010-01-01

浏览 20提问于2022-10-13得票数 0

1回答

我的apache火花使用是对的吗？

、、

").option("inferSchema", "true").load("hdfs://10.10.10.11:8020/sparkfiles/alarmfiles/export.csv")from pyspark.sql.functions import col,udf from pyspark.sql.types importDateType

浏览 2提问于2016-08-19得票数 2

回答已采纳

3回答

如何在PySpark数据框列中将日期转换为每月的第一天？

、、、

date||2017-01-25||2017-01-12|下面是在DataFrame上面创建的代码：df.show() 我希望每一行都有一个以月为首个日期的新列，只需将所有

浏览 4提问于2018-01-20得票数 10

回答已采纳

3回答

如何修改Perl DateTime对象？

、、

在我的脚本中，我需要像这样做一个循环：for $j(0..3){ my ($k) = 0;= $j){ $k++;print "$date\n";它应该得到当前日期不幸的是，在获得正确的当前日期后，它不能工作，我不知道哪里出了问题。如果可能，我希望继续只使用D

浏览 1提问于2010-10-12得票数 2

回答已采纳

2回答

要替换为替换值的嵌套for-循环

、、、

“校正日期”。我可以使用以下命令逐个替换不正确的日期：但那是低效的。嵌套的for循环似乎是一个更好的解决方案，因此我尝试了：{ dat[dat==badids[i], "startdate"]<-correc

浏览 4提问于2016-03-27得票数 0

回答已采纳

2回答

替换从x行到y行的MySQL列中的值

、、、、

我需要替换wordpress帖子表中的帖子日期。由于迁移，有超过800.000个相同日期的post条目。等等..。

浏览 4提问于2016-08-27得票数 0

回答已采纳

点击加载更多