我正在尝试将我的pandas代码转换为pyspark dataframe,并尝试在dataframe的一列上应用函数。我在pandasdataframe中做了一些如下的事情。在操作了几个列值之后,将新列添加到pandas数据帧中,如下所示。return USD_amount
salesData['Sales (IN
我有CSV文件,其中有3列。这是我必须要做的:
我想写一个if条件或者类似if Divi == 'core'的任何东西,然后我需要没有冗余的标签计数(distinct),也就是说(核心划分的标签中的两个sand1应该被视为只有一个计数还有一个if条件,比如Div === saturn or core && type == dev then same需要计算标签的个数(Distinc