在我的AWS集群中,我下载了一个Python包:现在,我想在我的名为“'city_no_accents‘city”的pyspark列中使用这个词,该列的值为:’s o paulo‘、'seropédica’等(即带有口音),并希望创建一个名为“”的新列,它将更正文本中的所有重音,并使其在普通英语文本中
我有一个pyspark dataframe,它有一个包含文本内容的列。 我正在尝试计算包含感叹号'!‘的句子数量。还有“喜欢”和“想要”这个词。例如:具有包含以下句子的行的列: I don't like to sing!I want to go home!
I like fast food.我希望得到的输出应该是这样的(只计算包含" lik