首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >工作于火花放电外壳而非火花提交的过滤器

工作于火花放电外壳而非火花提交的过滤器
EN

Stack Overflow用户
提问于 2018-08-02 19:42:59
回答 2查看 347关注 0票数 0

df.filter(~(col('word').isin(stop_words_list))) = df_filter df_filter.count()

27781

df.count()

31240

当使用submit将相同的代码提交到星火集群时,筛选器功能不能正常工作,stop_words_list中带有col('word')的行不会被过滤。这一切为什么要发生?

EN

回答 2

Stack Overflow用户

发布于 2018-08-03 23:02:24

在裁剪“word”之后,过滤现在开始工作了。df_filter = df.filter(~(trim(col("word")).isin(stop_words_list)))我仍然不知道为什么它工作在火花放电外壳,但不是火花-提交。它们唯一的区别是:在pyspark中,我使用spark.read.csv()在文件中读取,而在火花提交中,我使用了以下方法。from pyspark.sql import SparkSession from pyspark.sql import SQLContext session = pyspark.sql.SparkSession.builder.appName('test').getOrCreate() sqlContext = SQLContext(session) df = sqlContext.read.format("com.databricks.spark.csv").option('header','true').load()我不确定是否是两种不同的读入方法导致了这种差异。熟悉这一点的人可以澄清这一点。

票数 0
EN

Stack Overflow用户

发布于 2018-08-02 19:50:55

试着用双引号代替单引号。

代码语言:javascript
复制
from pyspark.sql.functions import col
df_filter = df.filter(~(col("word").isin(stop_words_list))).count()
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51661079

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档