腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PC上的大量数据?
、
、
你好,我想处理10亿行,23列的大量数据。但在熊猫身上,我甚至无法读取数据。那么,如何在我的Dell XPS 9570计算机上处理这些数据呢?我能用spark来做这个吗?有什么建议可以在我的电脑上处理吗?
浏览 11
提问于2019-10-23
得票数 0
1
回答
PySpark
-
数据处理
、
、
、
我是新来的火花和尝试各种各样的东西来理解火花。目前,我有一个CSV,我正试图将其解析和操作到所需的格式。我不知道如何做枢轴和获得输出,或任何其他方式,以及。我的CSV看起来是这样的:现在,我正在尝试构建的CSV输出如下:BHeader, BValue这是我目前的代码: sqlC
浏览 1
提问于2019-11-18
得票数 0
回答已采纳
2
回答
pyspark
streaming DStreams to kafka主题
、
、
、
我有火花流作业,它做了所有的
数据处理
,现在我想把数据推送到卡夫卡主题。在
pyspark
中可以做到这一点吗?
浏览 1
提问于2018-06-08
得票数 0
1
回答
Spark/
PySpark
:尝试连接到Java服务器时出错(127.0.0.1:39543)
、
、
、
这有点不常见,因为错误并不总是发生,只是偶尔发生……custom (8 vCPUs, 200 GB) conf =
pyspark
.SparkConf().setAppName("App")(conf=conf)我训练了一个随机森林模型并进行了预测: model = rf.fit(
浏览 0
提问于2018-01-30
得票数 9
回答已采纳
1
回答
DataProc的处理时间比预期的要长3个小时,不到15分钟
、
、
、
、
我使用
PySpark
作业迁移了C应用程序的一部分,以便在DataProc上进行处理(读取和写入大型查询-数据量-大约10 GB)。在本地数据中心运行的C应用程序在8分钟内运行,
数据处理
时间约为4小时。有人能给我建议一下最优的
数据处理
配置吗?32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10 我将非常感谢在优化
数据处理
程序配置方面的任何帮助
浏览 19
提问于2021-03-03
得票数 2
2
回答
pyspark
和spark之间的记忆差异?
、
、
我一直在尝试使用一个
PySpark
作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了spark-shell和
PySpark
,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn. spark-shell版本可以工作,而
PySpark
版本显示了相同的运行
PySpark
有那么大的开销吗?或者这是binaryFiles是新的问题吗?我使用的是Spark版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
如何在窗口分区上执行类似于SparkR示例代码的延迟操作
、
、
、
、
我正在尝试将类似于下面的SparkR代码的东西实现到
pyspark
中。partition-and-ordered table有没有人知道如何在火星雨
数据处理
上做到这一点
浏览 0
提问于2021-11-11
得票数 0
1
回答
使用apache火花放电和气流的ETL
、
我们正在开发ETL工具,使用apache和apache气流。Apache气流将用于工作流管理。
浏览 1
提问于2021-08-02
得票数 0
1
回答
如何有效地合并
PySpark
数据?
、
、
、
我有两个
数据处理
程序,它们已经合并了大约两天。第一个是大约6,000,000个特性x 2600行,第二个是大约30个特性x 2600行。我怀疑花了这么长时间的是在合并之前的实际准备。这是我的代码:import
pyspark
from
pyspark
.ml import Pipeline from
pys
浏览 0
提问于2019-02-03
得票数 0
回答已采纳
1
回答
用于显示不带小数点的整数
、
、
但是,一旦将数据加载到
pyspark
dataframe中,它也会显示带有单个小数位(例如3.0)的整数。from
pyspark
.sql import functions as F df = spark.read.csv(
浏览 7
提问于2022-05-21
得票数 0
2
回答
在网络应用程序中使用熊猫-好还是坏?
、
、
使用python大熊猫在一个烧瓶/django网络应用程序中操作表格数据可以吗?
浏览 3
提问于2020-12-22
得票数 0
1
回答
通过Hadoop输入格式的BigQuery连接器示例
、
、
、
、
我有一个存储在ETL表中的大型数据集,我想将它加载到一个用于BigQuery
数据处理
的pypark RDD中。 不幸的是,两端的文档似乎都很少,而且超出了我对Hadoop/Spark/BigQuery的了解。
浏览 16
提问于2015-07-14
得票数 11
1
回答
GCP Dataproc基础Docker镜像
、
、
谁知道我在哪里可以找到GCP的
数据处理
程序的docker镜像?我使用过dataproc集群,发现它们相当不错,但我想在本地开发,只有在我准备好处理大型工作时才将我的计算转移到云上。我已经找到了一些可以与
pyspark
一起工作的docker图像,但我想得到一些像GCP dataproc一样流畅的东西。
浏览 27
提问于2021-10-13
得票数 0
回答已采纳
1
回答
如何使用数据融合/Cloud Composer在GCP上调度
数据处理
PySpark
作业
、
、
、
、
我最近开始学习GCP,我正在做一个POC,它要求我创建一个能够调度用
PySpark
编写的Dataproc作业的管道。
浏览 33
提问于2021-08-16
得票数 2
回答已采纳
1
回答
如何在spark2-submits之间保持Spark集群的活力?
、
我需要在输入数据文件到达时通过执行spark2-submit来处理它们,以通过
pyspark
脚本处理输入文件。我观察到的是,对于每个spark2--submit,spark在进行最新输入文件的
数据处理
之前都会进行大量的初始化。这会导致延迟。如何在spark2提交之间保持Spark集群的活动状态?
浏览 2
提问于2017-12-06
得票数 2
1
回答
YARN不能识别增加的'yarn.scheduler.maximum-allocation-mb‘和’YARN.NODEMASGEAGER.resource.memory-mb‘值
、
、
、
、
我正在使用一个停靠的
pyspark
集群,它利用了纱线。为了提高
数据处理
管道的效率,我想增加分配给
pyspark
执行器和驱动程序的内存量。的日志中发现了这个错误:java.lang.IllegalArgumentException: Required executor memory (57344), overhead (5734 MB), and
PySpark
浏览 54
提问于2020-09-30
得票数 4
回答已采纳
1
回答
pyspark
中大
数据处理
的优化
、
、
、
、
不是问题->我需要一个建议我就是这么做的df1 = spark.read.csv() #6gbdf_merged.persists(StorageLevel.MEMORY_AND_DISK) ##if i do MEMORY_ONLY will I gain more performance??
浏览 0
提问于2016-10-17
得票数 1
1
回答
我怎样才能按不同的层次聚合,然后在内部加入火种呢?
、
、
我是新来的火花,我有一个
数据处理
数据。我想根据人的身份,但根据不同的属性,例如商店类型,和教育水平分组。%%sparkfrom functools import reduce shopt
浏览 3
提问于2021-12-08
得票数 0
回答已采纳
2
回答
使用AWS jupyter笔记本绘制Matplotlib
、
、
、
我试图在AWS实例的jupyter笔记本中使用Matplotlib绘制数据。Matplotlib必须在实例启动时通过引导操作安装,这一点我已经成功地完成了。我也成功地用这种方式安装了Pandas (并将其用于笔记本中的各种东西)。典型的%matplotlib inline不工作。(事实上,在AWS笔记本上似乎没有神奇的命令。我怀疑AWS已经禁用了这些功能,或者这与笔记本的“无服务器”有关)。 安装matplotlib==1.5,安装ipympl,并使用i
浏览 0
提问于2019-03-31
得票数 4
4
回答
如何在Python中排除Spark dataframe中的多列
、
、
、
我发现
PySpark
有一个名为drop的方法,但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗?selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']]) /usr/hdp/current/spark-client/python/
pyspark
浏览 1
提问于2016-02-28
得票数 42
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
PySpark,大数据处理的Python加速器!
一个Python大数据处理利器:PySpark入门指南
PySpark,一个大数据处理利器的Python库!
pyspark 一个大数据处理神器的Python库!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券