在裁剪“word”之后，过滤现在开始工作了。df_filter = df.filter(~(trim(col("word")).isin(stop_words_list)))我仍然不知道为什么它工作在火花放电外壳，但不是火花-提交。它们唯一的区别是:在pyspark中，我使用spark.read.csv()在文件中读取，而在火花提交中，我使用了以下方法。from pyspark.sql import SparkSession from pyspark.sql import SQLContext session = pyspark.sql.SparkSession.builder.appName('test').getOrCreate() sqlContext = SQLContext(session) df = sqlContext.read.format("com.databricks.spark.csv").option('header','true').load()我不确定是否是两种不同的读入方法导致了这种差异。熟悉这一点的人可以澄清这一点。

票数 0

Stack Overflow用户

发布于 2018-08-02 19:50:55

试着用双引号代替单引号。

from pyspark.sql.functions import col
df_filter = df.filter(~(col("word").isin(stop_words_list))).count()

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51661079

复制

相似问题

问工作于火花放电外壳而非火花提交的过滤器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问工作于火花放电外壳而非火花提交的过滤器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问工作于火花放电外壳而非火花提交的过滤器
EN