pyspark 数据处理 - 腾讯云开发者社区

、、

你好，我想处理10亿行，23列的大量数据。但在熊猫身上，我甚至无法读取数据。那么，如何在我的Dell XPS 9570计算机上处理这些数据呢？我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？

浏览 11提问于2019-10-23得票数 0

1回答

PySpark -数据处理

、、、

我是新来的火花和尝试各种各样的东西来理解火花。目前，我有一个CSV，我正试图将其解析和操作到所需的格式。我不知道如何做枢轴和获得输出，或任何其他方式，以及。我的CSV看起来是这样的：现在，我正在尝试构建的CSV输出如下：BHeader, BValue这是我目前的代码： sqlC

浏览 1提问于2019-11-18得票数 0

回答已采纳

2回答

pyspark streaming DStreams to kafka主题

、、、

我有火花流作业，它做了所有的数据处理，现在我想把数据推送到卡夫卡主题。在pyspark中可以做到这一点吗？

浏览 1提问于2018-06-08得票数 0

1回答

Spark/PySpark:尝试连接到Java服务器时出错(127.0.0.1:39543)

、、、

这有点不常见，因为错误并不总是发生，只是偶尔发生……custom (8 vCPUs, 200 GB) conf = pyspark.SparkConf().setAppName("App")(conf=conf)我训练了一个随机森林模型并进行了预测： model = rf.fit(

浏览 0提问于2018-01-30得票数 9

回答已采纳

1回答

DataProc的处理时间比预期的要长3个小时，不到15分钟

、、、、

我使用PySpark作业迁移了C应用程序的一部分，以便在DataProc上进行处理(读取和写入大型查询-数据量-大约10 GB)。在本地数据中心运行的C应用程序在8分钟内运行，数据处理时间约为4小时。有人能给我建议一下最优的数据处理配置吗？32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10 我将非常感谢在优化数据处理程序配置方面的任何帮助

浏览 19提问于2021-03-03得票数 2

2回答

pyspark和spark之间的记忆差异？

、、

我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD，然后我使用flatMap操作将二进制数据处理成一堆行。所以我打开了spark-shell和PySpark，并使用默认设置运行了REPL/shell中的命令，唯一的附加参数是--master yarn. spark-shell版本可以工作，而PySpark版本显示了相同的运行PySpark有那么大的开销吗？或者这是binaryFiles是新的问题吗？我使用的是Spark版本2.2.0.2.6.4.0-91。

浏览 1提问于2018-08-11得票数 0

1回答

如何在窗口分区上执行类似于SparkR示例代码的延迟操作

、、、、

我正在尝试将类似于下面的SparkR代码的东西实现到pyspark中。partition-and-ordered table有没有人知道如何在火星雨数据处理上做到这一点

浏览 0提问于2021-11-11得票数 0

1回答

使用apache火花放电和气流的ETL

、

我们正在开发ETL工具，使用apache和apache气流。Apache气流将用于工作流管理。

浏览 1提问于2021-08-02得票数 0

1回答

如何有效地合并PySpark数据？

、、、

我有两个数据处理程序，它们已经合并了大约两天。第一个是大约6,000,000个特性x 2600行，第二个是大约30个特性x 2600行。我怀疑花了这么长时间的是在合并之前的实际准备。这是我的代码：import pysparkfrom pyspark.ml import Pipeline from pys

浏览 0提问于2019-02-03得票数 0

回答已采纳

1回答

用于显示不带小数点的整数

、、

但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。from pyspark.sql import functions as F df = spark.read.csv(

浏览 7提问于2022-05-21得票数 0

2回答

在网络应用程序中使用熊猫-好还是坏？

、、

使用python大熊猫在一个烧瓶/django网络应用程序中操作表格数据可以吗？

浏览 3提问于2020-12-22得票数 0

1回答

通过Hadoop输入格式的BigQuery连接器示例

、、、、

我有一个存储在ETL表中的大型数据集，我想将它加载到一个用于BigQuery数据处理的pypark RDD中。不幸的是，两端的文档似乎都很少，而且超出了我对Hadoop/Spark/BigQuery的了解。

浏览 16提问于2015-07-14得票数 11

1回答

GCP Dataproc基础Docker镜像

、、

谁知道我在哪里可以找到GCP的数据处理程序的docker镜像？我使用过dataproc集群，发现它们相当不错，但我想在本地开发，只有在我准备好处理大型工作时才将我的计算转移到云上。我已经找到了一些可以与pyspark一起工作的docker图像，但我想得到一些像GCP dataproc一样流畅的东西。

浏览 27提问于2021-10-13得票数 0

回答已采纳

1回答

如何使用数据融合/Cloud Composer在GCP上调度数据处理PySpark作业

、、、、

我最近开始学习GCP，我正在做一个POC，它要求我创建一个能够调度用PySpark编写的Dataproc作业的管道。

浏览 33提问于2021-08-16得票数 2

回答已采纳

1回答

如何在spark2-submits之间保持Spark集群的活力？

、

我需要在输入数据文件到达时通过执行spark2-submit来处理它们，以通过pyspark脚本处理输入文件。我观察到的是，对于每个spark2--submit，spark在进行最新输入文件的数据处理之前都会进行大量的初始化。这会导致延迟。如何在spark2提交之间保持Spark集群的活动状态？

浏览 2提问于2017-12-06得票数 2

1回答

YARN不能识别增加的'yarn.scheduler.maximum-allocation-mb‘和’YARN.NODEMASGEAGER.resource.memory-mb‘值

、、、、

我正在使用一个停靠的pyspark集群，它利用了纱线。为了提高数据处理管道的效率，我想增加分配给pyspark执行器和驱动程序的内存量。的日志中发现了这个错误：java.lang.IllegalArgumentException: Required executor memory (57344), overhead (5734 MB), and PySpark

浏览 54提问于2020-09-30得票数 4

回答已采纳

1回答

pyspark中大数据处理的优化

、、、、

不是问题->我需要一个建议我就是这么做的df1 = spark.read.csv() #6gbdf_merged.persists(StorageLevel.MEMORY_AND_DISK) ##if i do MEMORY_ONLY will I gain more performance??

浏览 0提问于2016-10-17得票数 1

1回答

我怎样才能按不同的层次聚合，然后在内部加入火种呢？

、、

我是新来的火花，我有一个数据处理数据。我想根据人的身份，但根据不同的属性，例如商店类型，和教育水平分组。%%sparkfrom functools import reduce shopt

浏览 3提问于2021-12-08得票数 0

回答已采纳

2回答

使用AWS jupyter笔记本绘制Matplotlib

、、、

我试图在AWS实例的jupyter笔记本中使用Matplotlib绘制数据。Matplotlib必须在实例启动时通过引导操作安装，这一点我已经成功地完成了。我也成功地用这种方式安装了Pandas (并将其用于笔记本中的各种东西)。典型的%matplotlib inline不工作。(事实上，在AWS笔记本上似乎没有神奇的命令。我怀疑AWS已经禁用了这些功能，或者这与笔记本的“无服务器”有关)。安装matplotlib==1.5，安装ipympl，并使用i

浏览 0提问于2019-03-31得票数 4

4回答

如何在Python中排除Spark dataframe中的多列

、、、

我发现PySpark有一个名为drop的方法，但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗？selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']]) /usr/hdp/current/spark-client/python/pyspark

浏览 1提问于2016-02-28得票数 42

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PC上的大量数据？

PySpark -数据处理

pyspark streaming DStreams to kafka主题

Spark/PySpark:尝试连接到Java服务器时出错(127.0.0.1:39543)

DataProc的处理时间比预期的要长3个小时，不到15分钟

pyspark和spark之间的记忆差异？

如何在窗口分区上执行类似于SparkR示例代码的延迟操作

使用apache火花放电和气流的ETL

如何有效地合并PySpark数据？

用于显示不带小数点的整数

在网络应用程序中使用熊猫-好还是坏？

通过Hadoop输入格式的BigQuery连接器示例

GCP Dataproc基础Docker镜像

如何使用数据融合/Cloud Composer在GCP上调度数据处理PySpark作业

如何在spark2-submits之间保持Spark集群的活力？

YARN不能识别增加的'yarn.scheduler.maximum-allocation-mb‘和’YARN.NODEMASGEAGER.resource.memory-mb‘值

pyspark中大数据处理的优化

我怎样才能按不同的层次聚合，然后在内部加入火种呢？

使用AWS jupyter笔记本绘制Matplotlib

如何在Python中排除Spark dataframe中的多列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐