腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
filterPushdown
是
PySpark
的
设置
吗
?
、
偶然发现Hortonwork
的
博客文章提倡谓词下推。 我在Spark 1.4文档中找不到它(这是我正在使用
的
版本)。我是否需要担心将其
设置
为false,或者它已经
是
本机
设置
?
浏览 7
提问于2017-01-13
得票数 1
1
回答
为什么在spark中spark.sql.orc.
filterPushdown
默认
是
false?
、
、
为什么spark中
的
spark.sql.orc.
filterPushdown
默认值
是
false?将spark
的
值
设置
为true是否会导致一些性能开销,或者在spark.sql.orc.
filterPushdown
的
orc读取功能中存在一些限制?
浏览 0
提问于2019-03-14
得票数 0
1
回答
Spark /谓词下推是否在ORC文件中不正常工作?
、
、
、
而"spark.sql.orc.
filterPushdown
“等于false (默认情况下)。下面的语句花了3分钟执行。但是在将spark.sql.orc.
filterPushdown
设置
为“真”之后,相同
的
代码片段大约需要30秒。奇怪
的
部分
是
物理计划
是
相同
的
。因此,我查看了SparkUI
的
“阶段”部分,输入大小
的
数量
是
不同
的
。spark.conf.set("s
浏览 0
提问于2019-09-09
得票数 3
2
回答
火花2.3+使用parquet.enable.dictionary?
、
我正在寻找关于如何在星火中使用parquet.enable.dictionary
的
文档(最新
的
2.3.1)。在创建SparkSession时,可以将其
设置
为"true“或"false”。具体来说,以下
是
我
的
问题: 在Spark2.3.1中,默认情况下parquet.filter.dictionary.enabled = true还是= false?这是一个特性,在我将写入Parquet文件之前启用(
设置
为真),以便Spark
的
Parquet库计算字典
浏览 1
提问于2018-09-14
得票数 8
回答已采纳
3
回答
PySpark
- Hive上下文不返回结果,但是SQL上下文用于类似的查询。
、
、
、
我注意到,当我在HiveContext和SQLContext中运行
PySpark
中
的
类似查询时,性能有很大
的
差异。database.table在field1上进行分区(用于where子句) from
pyspark
.sql import SQLContext sqlContext我听说parquet格式
的
文件在版本1.5之前可能会遇到spark
的
问题,所以我在spark 1.5.1中使用这些附加
设置
进行了所有测试:
浏览 0
提问于2015-10-14
得票数 1
回答已采纳
1
回答
不具有分区列性能
的
火花下推滤波器
我有一个关于spark中
的
过滤
的
问题,当你不在过滤器中包括分区列时。假设我有以下按日期分区
的
数据: part-0001.parquet数据有一个名为"action“
的
列,其中大约30%
的
数据值为0,其余
的
数据值为1spark.read.parquet("s3a://path").fil
浏览 2
提问于2020-08-02
得票数 0
2
回答
在驱动程序(而不是在执行器中)中火花读取orc文件
、
、
我有30 s3
的
ORC文件( 24部分* 1.3G)中
的
s3。我用火花来读这个兽人并做一些操作。但是,从日志中我观察到,甚至在进行任何操作之前,spark都在打开和读取s3
的
所有24个部分(只需12分钟就可以读取文件)。但我在这里担心
的
是
,所有这些读取操作都发生在中,只有在驱动程序和执行器都是空闲
的
。同样
的
也适用于地板
吗
? 提前谢谢。
浏览 5
提问于2017-10-25
得票数 2
回答已采纳
1
回答
没有在简单SparkSQL查询中修剪
的
分区
、
、
、
、
我正在努力从SparkSQL表中高效地选择各个分区(S3中
的
parquet)。然而,我看到了火花打开表中所有的地板文件
的
证据,而不仅仅是那些通过过滤器
的
文件。这使得对于具有大量分区
的
表,即使
是
小
的
查询也会很昂贵。# Make some data df = pandas.DataFrame({'pk': ['a&
浏览 1
提问于2015-07-05
得票数 6
回答已采纳
1
回答
SparkSQL :对于jdbc数据源有"
filterPushdown
“特性
吗
?
、
我想知道是不是有一个类似于镶木地板文件
的
功能"
filterPushdown
“。我有一个大表,其中有数百万行,我需要加载与某些键和timestamp > certian_timestamp匹配
的
部分数据。我可以使用"
filterPushdown
“和类似于"joinPushdown”
的
东西在数据库中实现这些操作(过滤和连接)
吗
??(如果存在)
浏览 26
提问于2018-12-26
得票数 0
1
回答
不能在窗口中启动
Pyspark
外壳
、
、
、
、
我正试图在windows上启动
Pyspark
:但是我发现了一个错误: 我试图将它添加到我
的
.bashrc文件中,但是它不起作用。有人能告诉我怎么解决这个问
浏览 13
提问于2021-12-23
得票数 0
1
回答
如何从命令行访问Apache
PySpark
?
、
、
我正在参加一个使用Jupyter笔记本
的
Apache
PySpark
在线课程。为了轻松打开Jupyter笔记本,他们让我在我
的
bash配置文件中输入以下代码行(我使用
的
是
MAC OS): export SPARK_HOME="(INSERTED MY SPARK DIRECTORY='notebook' 我对Linux不是很熟悉,课程也没有解释这些代码行
是
做什么
的
。在此之前,我可以通过命令行输入"
PySpark
浏览 9
提问于2019-10-04
得票数 0
1
回答
使用
pyspark
从Jupyter notebook连接SQL DW
、
、
我
是
pyspark
的
新手,所以你能建议如何使用jupyter-notebook从
Pyspark
连接SQL DW
吗
?我没有使用HDinsight或DataBricks。我已经使用链接
设置
了
pyspark
和Jupyter-note书。
浏览 25
提问于2019-07-26
得票数 0
回答已采纳
1
回答
无法在ipython中正确创建火花上下文以链接到MySQL - com.mysql.jdbc.Driver。
、
、
、
、
我正在使用Spark、
PySpark
、Ipython和mysql运行一个本地环境。我很怀疑能够通过spark启动一个mysql查询。主要问题
是
包含适当
的
jdbc,以便能够执行查询。以下
是
我到目前为止所拥有的:conf = (
pyspark
.SparkConf() .setAppName(conf=conf) 这是为了正确地创建星火上下文,并正确显示jar
的<
浏览 4
提问于2015-11-26
得票数 3
回答已采纳
1
回答
Anaconda与spyder: ImportError:无法导入名称'SparkConf‘
、
、
、
我已经在anaconda中
的
testenv上安装了
pyspark
(通过使用:conda install -c conda-forge
pyspark
),它就在这里(我想)这条路径存在,接下来我启动spyder (tes
浏览 1
提问于2018-05-09
得票数 1
回答已采纳
1
回答
FilterPredicates目前不支持火花3x中
的
重复使用。
、
、
我无法在spark 3.2.0中
的
数组列中过滤df.filter(col("src").getItem(0).equalTo("uid2")).show(false)WARN
浏览 4
提问于2022-09-05
得票数 1
3
回答
什么
是
pyspark
驱动程序?
、
我看到启动
pyspark
的
一个常见
设置
是
使用
pyspark
--master yarn --deploy-mode client --num-executors 4 --executor-memory您能解释一下什么
是
驱动程序
吗
?在这里
设置
驱动程序对
pyspark
工作流/性能有何影响? 谢谢!
浏览 1
提问于2017-10-29
得票数 2
1
回答
安装Apache后,无法从我
的
Mac上
的
任何目录运行
pyspark
命令
、
、
我已经在我
的
Mac上安装了火花,按照书中
的
说明:“24小时内
的
Apache火花”。当我在spark目录中时,我可以使用以下命令运行
pyspark
:为了安装spark,我创建了env变量:将其添加到路径中:书中说,我应该能够从任何目录中运行"
pyspark
“或”shell“
浏览 3
提问于2017-02-27
得票数 2
回答已采纳
6
回答
如何在anaconda中导入
pyspark
、
、
、
在安装spark并
设置
$SPARK_HOME变量之后,我尝试了:这不会起作用(当然),因为我发现我需要告诉python在$SPARK_HOME/python/下查找
pyspark
。问题
是
,要做到这一点,我需要
设置
$PYTHONPATH,而anaconda不使用该环境变量。我尝试将$SPARK_HOME/python/
的
内容复制到ANACONDA_HOME/lib/python2.7&
浏览 2
提问于2015-11-20
得票数 16
4
回答
为
PySpark
创建IPython配置文件
、
我遵循这个链接,以便为IPython创建
PySpark
配置文件。00-
pyspark
-setup.pyimport osexecfile(os.path.join(spark_home, '\python\
pyspark
\shell.py')) 当
浏览 2
提问于2015-04-21
得票数 7
回答已采纳
3
回答
ipython未被识别为内部或外部命令(
pyspark
)
、
、
、
我使用
的
是
Windows 10 OS我
设置
了我
的
环境变量:路径为D:\spark-2.2.0-bin-hadoo
浏览 1
提问于2017-11-18
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编程字典-详细的PySpark环境设置
视频号小店的分享员能设置自动升级吗?怎么设置?
视频号小店不同的商品可以设置不同的收货地址吗?怎么设置?
400电话是怎么设置功能的
知道这些设置自增列的方法吗?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券