腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python
/
PySpark
并行
处理
示例
、
、
、
、
我在理解如何在我的
python
脚本中利用
并行
处理
的能力时遇到了麻烦。Filter
pyspark
dataframe for the subset (e.g. category == 'bread')我需要在迭代循环中添加什么才能触发多
处理
?
pyspark
会自动做到这一点吗?
浏览 10
提问于2018-03-04
得票数 0
1
回答
我们是否必须显式地使用RDDs和诸如foreach、parallelize之类的操作来在
pyspark
中执行
并行
处理
?
、
、
如果我们对group by,merge,for两个数据帧使用普通的
python
操作,而不是显式地使用map,reducebykey,groupbykey等,是否存在性能差异?前者(正常操作)是简单的顺序
处理
,而后者是
并行
处理
吗? 这是否意味着要激活
并行
处理
,我们必须显式使用RDDs?正常的数据帧使用不是
并行
处理
(尽管是在
pyspark
中完成的)?
浏览 1
提问于2021-10-26
得票数 0
1
回答
将使用rpy2的
python
代码
并行
化的最有效方法是什么?
、
、
、
、
我使用的是
python
3,在其中,我使用rpy2包访问R,传入完成繁重计算的R代码,并将结果返回给
python
。特别是,我正在使用R (documentation )的lfe函数。我想知道哪个选项更好:在
python
中进行
并行
化还是在R中进行
并行
化,这有关系吗?为什么我们要怀疑其中一个比另一个更有效呢?谢谢。
浏览 18
提问于2017-02-03
得票数 1
回答已采纳
1
回答
Python
处理
来自excel的大量数据
、
、
、
我需要
处理
有6336行x53列的Excel文件。我的任务是创建以下程序: 我知道我没有提供任何代码,但老实说,我尝试自己解决它,我甚至不知道我应该使用哪个模块。
浏览 3
提问于2020-03-24
得票数 0
1
回答
为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象
、
、
、
、
我用火花来
处理
我的数据,就像这样: url='jdbc:/Versions/3.9/lib/
python
3.9/site-packages/
pyspark
/
python
/lib/
pyspark
.zip/
pyspark
浏览 2
提问于2022-05-11
得票数 0
回答已采纳
1
回答
Pyspark
内存问题
、
、
我正在多次运行一个涉及spark
并行
化的程序。这个程序在最初的几次迭代中运行良好,但由于内存问题而崩溃。\
python
\lib\
pyspark
.zip\
pyspark
\worker.py", line 57, in File "C:\opt\spark\spark-2.2.0-bin- hadoop2.7\
python
\lib\
pyspark
.zip\
pyspark
\serializers.py&q
浏览 0
提问于2017-10-12
得票数 1
1
回答
emr上
并行
运行的提交函数
、
、
我正在提交在电子病历上
并行
运行的步骤。我这样做是通过在s3路径上使用
pyspark
代码保存
python
脚本。然后,我使用下面的boto代码提交与emr
并行
的步骤。相反,我想创建一个函数,如下面的"read_write“
示例
函数,以执行我在保存的
python
脚本中所做的相同操作。这样,我就不必在我试图
并行
运行的每一步中都将一个
python
脚本文件保存到s3。我提供了类似于当前提交步骤以
并行
运行的
示例
代码。我还
浏览 5
提问于2022-08-24
得票数 0
1
回答
Python
多
处理
工具vs Py(Spark)
、
、
、
、
这是一个新手问题,因为我越来越迷惑
pyspark
。我想扩展现有的
python
数据预
处理
和数据分析管道。我意识到如果我用
pyspark
划分我的数据,我不能再把每个分区当作一个独立的pandas数据框架,需要学习如何使用
pyspark
.sql的行/列函数来操作,并修改很多现有的代码,再加上我一定会触发mllib那么,如果我可以使用多
处理
工具进行集群计算并
并行
现有数据帧上的任务,那么我为什么还需要使用Spark呢?
浏览 2
提问于2017-06-15
得票数 6
1
回答
如何使用
PySpark
并行
化我的文件
处理
程序
、
、
、
我现在有一个很大的
python
项目,其中的驱动程序有一个函数,它使用for循环来遍历我的GCP (google cloud platform)存储桶上的每个文件。对于在这个For循环中遍历的每个文件,我都调用了一个函数parse_file(...)它解析该文件并调用一系列
处理
该文件的其他函数。是否可以使用
PySpark
并行
化文件级for循环来运行parse_file(...)对所有这些文件
并行
执行函数,以减少程序执行时间并提高效率?如果是这样的话,由于程序没有使用
PySpark
,是否需要
浏览 2
提问于2020-06-04
得票数 1
2
回答
pySpark
forEachPartition -代码在哪里执行?
、
、
、
我正在使用版本2.3中的
pySpark
(在我当前的开发系统中不能更新到2.4 ),并且有以下有关的问题。首先是一个小上下文:据我所知,
pySpark
-UDFs强制在
Python
实例中的Java (JVM)之外执行
Python
,从而使其性能成本降低。由于我需要将一些
Python
-函数应用于我的数据,并且希望最小化开销,所以我的想法是至少将一组可
处理
的数据加载到驱动程序中,并将其作为Pandas-DataFrame
处理
。无论如何,这将导致
并行
性的损失-优
浏览 0
提问于2019-04-12
得票数 4
回答已采纳
1
回答
在
PySpark
中寻找循环吗?
、
、
我在
Python
中有一个聚类算法,我正试图将其转换为
PySpark
(用于
并行
处理
)。 我有一个包含区域的数据集,并在这些区域中存储。我想对单个区域中的所有存储执行我的聚类算法。如何修改代码以删除
PySpark
中的for循环?我在
PySpark
中读过for循环通常不是一个好的实践,但我需要能够在许多子数据集上执行模型。有什么建议吗?
浏览 3
提问于2021-01-26
得票数 2
回答已采纳
1
回答
将
PySpark
作为Django的运行时,而不是常规的
Python
环境?
、
、
、
有没有可能使用
PySpark
作为Django的运行时,而不是常规的
python
环境?findspark.init() import
pyspark
.sq
浏览 1
提问于2019-07-10
得票数 0
3
回答
使用常规Jupyter Notebook导入
PySpark
包
、
、
除了正确导入包之外,
pyspark
到底在做什么?是否可以使用常规的jupyter notebook,然后导入所需的内容?
浏览 6
提问于2016-02-29
得票数 2
1
回答
在中的集群中,纯
python
脚本(不是
pyspark
)可以
并行
运行吗?
、
我希望将我的
python
脚本从本地迁移到云上,特别是在Azure Databricks上创建的集群上。纯
python
脚本可以
并行
运行(同时使用集群中的多个节点),而不必转换为
pyspark
吗? 是否可以检查作业是否
并行
运行?
浏览 3
提问于2018-11-28
得票数 1
1
回答
将Scala中的列表转换为
Python
或dataFrame
、
、
、
、
val dataList: List[List[Int]] = tempData.toList<class 'py4j.java_gateway.JavaObject'>我用的是齐柏林飞艇0.5.5
浏览 4
提问于2016-04-23
得票数 4
回答已采纳
1
回答
map reduce -从PDF中提取文本
、
、
、
、
如何使用
pyspark
应用map-reduce/
并行
处理
它们。我想要做的就是从它们中提取文本,然后将文本存储在RDD中;因为文件的数量很大,所以我想以
并行
的方式完成这项工作。
pyspark
有一个名为wholeTextFiles的方法,可以读取文本文件的目录。但是,我有它在PDF格式,我想要预
处理
的PDF,以提取文本之前,我可以
处理
的文本。 任何帮助都将不胜感激
浏览 1
提问于2017-11-09
得票数 0
2
回答
如何在火花放电中进行
并行
处理
、
、
我想做
并行
处理
在for循环中使用吡火花。from
pyspark
.sql import SparkSession df.show() print(e)上面提到的脚本工作得很好,但是我想在
pyspark
中进行
并行</
浏览 8
提问于2020-01-10
得票数 0
1
回答
windowPartitionBy和
pyspark
中的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
PySpark
:将字典
python
输出转换为RDD /或其他可保存(HDFS)格式
、
、
、
、
我是Spark /
Pyspark
/ HDFS的新手,我正在尝试用以下代码直接从HDFS加载一个.json文件:data = file.map(lambda x: json.loads(x)) ... a lot of
Python
functions加载文件后,我使用一些
Python
函数来
处理
浏览 2
提问于2017-05-16
得票数 1
1
回答
用
PySpark
实现程序
并行
化
、
、
、
我对
PySpark
还是个新手,我正在寻找如何用
PySpark
并行
化一个简单的程序。我没有找到一个Spark转换,可以正确地进行这种
处理
。 我想要做的
处理
方法是过滤一个非常大的有序向量/列表的一些数值。该程序在“经典”
Python
中实现非常简单,但需要使用Spark
并行
化非常快速地获得结果。
浏览 1
提问于2018-01-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
PySpark,大数据处理的Python加速器!
Python 多处理和并行编程指北
基于Python的“地理处理”并行方案
使用 Python multiprocessing 模块实现高效并行处理
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券