腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
中
的
高效
内存
笛卡尔
连接
、
、
、
我有一个字符串I
的
大型数据集,可以放入我
的
spark集群
中
单个节点
的
内存
中
。问题是它消耗了单个节点
的
大部分
内存
。HbDckDXCye20kwu0gfeGpLGWnJ2yif我正在寻找写到文件
的
所有ids对
的
列表。所以我需要在数据集本身上进行交
浏览 5
提问于2017-02-06
得票数 8
1
回答
优化spark sql
笛卡尔
连接
、
、
、
、
我必须在两个分别为3M和1M
的
数据集上执行
笛卡尔
连接
。这意味着3M数据集中
的
每一行都应该
连接
到1M数据集中
的
每一行。在那之后,我必须在
笛卡尔
积上执行多个其他
连接
。使用
PySpark
运行代码大约需要9天。有什么方法可以优化它吗?
浏览 12
提问于2019-12-30
得票数 0
1
回答
将三维阵列
的
外层重塑为一维阵列
、
、
、
我有一个3D数组,比如msh(0:m+1,0:n+1,0:l+1),它可以代表
笛卡尔
网格。我想把外层重塑成一维阵列。做这件事
的
最佳方式是什么(从
内存
的
角度看是
高效
的
)?开始逐平面重塑:array(m*n+1:2*m*n)=reshape(msh(1:m,1:n,l+1),m*n) 我
的
第一个问题是,这种重塑是否以一种
内存
高效
的
浏览 4
提问于2014-02-06
得票数 1
1
回答
pyspark
笛卡尔
连接
:重命名重复列
我有一个
pyspark
数据帧,并且我想在其自身上执行
笛卡尔
连接
。我在
pyspark
中使用了下面的函数 # Cross Join m_f_1 = m_f_0.withColumnRenamed('value', 'value_x').crossJoin(m_f_0.withColumnRenamed('value', 'value_y')).drop(m_f_0.area).drop(m_f_0.id) 我面临
的
问题是,还有一
浏览 24
提问于2019-05-20
得票数 1
回答已采纳
4
回答
如何在Spark
中
压缩两个数组列
、
、
、
、
我有潘达
的
数据。我尝试将包含字符串值
的
两个列
连接
到一个列表
中
,然后使用zip将列表
中
的
每个元素都用'_‘
连接
起来。我
的
数据集如下:df['column_2']: '1.0, 2.0, 3.0' 我想将这两列
连接
到第三列
中
,如下所示,我
的
每一行数据
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
1
回答
在列
中
对列表
中
的
值进行合并和操作
、
、
、
、
的
平均score。因此,person 'u1‘在type 'type1’上
的
平均值为1.5,因为它有关键字'a‘和'b’,它们
的
贡献为2+1/2=1.5。我尝试了一种包括
连接
的
方法: .select('person', 'type', 'keywords', 'keyword', 'score') \ .gr
浏览 2
提问于2016-03-19
得票数 2
回答已采纳
2
回答
如何反转
pyspark
dataframe
、
我需要反转我
的
pyspark
数据帧。有没有一种
高效
的
方式在
pyspark
中
做到这一点??我
的
datetime列是反转
的
,所以我需要反转我
的
dataframe +-------------------+-------++-----28.02||2018-11-30 23:58:24| 28.03| +------
浏览 33
提问于2019-10-18
得票数 0
回答已采纳
4
回答
SQL Server逻辑查询处理-它如何管理庞大
的
数据集?
、
我正在做一些关于SQL Server性能
的
阅读: 1)对于前两个表,它将创建一个由两个表
的
笛卡尔
连接
组成
的
虚拟表(VT1我敢肯定它背后还有很多东西,但从表面上看,如果你在处理大表(和
浏览 0
提问于2010-02-25
得票数 1
回答已采纳
2
回答
大型Numpy数组
的
高效
级联
、
、
、
我正在运行一个创建大量特征向量(作为numpy数组)并将它们堆叠到单个数组
中
的
过程。这个过程目前非常占用
内存
,我正在寻找一种更
高效
的
方式来运行它。目前,我每批生成100000个特征向量,并将它们
连接
在一起。,然后删除中间
的
features对象比一次生成所有特征并一次
连接
它们更有效。也就是说,在接近循环末尾运行
连接
时,仍然需要大约30 GB
的
内存
(在
连接
运行后,这些
内存</e
浏览 2
提问于2020-05-05
得票数 0
1
回答
PySpark
有效方式N个最大元素
、
ls = [] cols = df_tmp.c
浏览 1
提问于2019-11-09
得票数 0
3
回答
为什么这个查询会让我
的
整个数据库冻结?
、
、
SELECT * FROM `groupon-spain-6sep-2011`, `Hoja1`,`GroupaliaJuly2011` OR `Hoja1`.`code` = "5654
浏览 3
提问于2011-09-16
得票数 2
回答已采纳
1
回答
为什么此mysql查询仍然在没有正确ON条件
的
情况下运行
在调试某人
的
代码时,我发现其中一个查询导致mysql
的
临时表
内存
不足。我发现,即使'ON‘条件没有与字段匹配
的
equals,查询仍在执行。我在想..。这实际上会做什么,因为这似乎会导致可怕
的
性能滞后?(我运行了explain命令,但似乎没有帮助)"SELECT testfieldLEFT JOIN bar b ON b.testid
浏览 2
提问于2013-02-19
得票数 0
回答已采纳
1
回答
依赖于公共列
的
两个数据文件之间
的
交叉
连接
、
、
spark.createDataFrame(df1)在这个例子
中
,但是,对于我
的
问题,我想为每个用户做一个交叉
连接
,并且用户是两个数据格式
中
的
另一列,例如: df1 = pd.DataFrame({'user':[1,1,1,1,2,2,2,2],'subgroup'np.array(pd.date_range(date_today
浏览 0
提问于2019-04-19
得票数 2
回答已采纳
2
回答
基于
PySpark
的
Apache
内存
配置
、
我正在
PySpark
上开发一个Apache应用程序。我寻找了这么多资源,但无法理解有关
内存
分配
的
几件事。from
pyspark
.sql import SparkSession .builder\ .appName("q1 Tutorial") \我也
浏览 9
提问于2022-06-26
得票数 0
3
回答
Python Spark / Yarn
内存
使用情况
、
、
、
、
我有一个spark python应用程序,因为超过
内存
限制而被yarn杀死。我有一个步骤,需要加载一些有点重
的
资源(500+ MB),所以我使用mapPartitions。:我试着把memoryOverhead调得非常高,但还是有同
浏览 3
提问于2016-06-25
得票数 10
3
回答
(SQL)对表
的
连接
是否总是创建这些表
的
笛卡尔
产品?
、
加入表总是会创建这些表
的
笛卡尔
乘积吗?哪一种是快速和节省
内存
的
?所有的问题都是紧密相连
的
,所以请不要告诉我打开另一个线程: MySQL 5
浏览 3
提问于2011-04-12
得票数 0
回答已采纳
1
回答
在级联
中
实现
笛卡尔
连接
、
我想知道我们有没有可能在级联
中
做
笛卡尔
连接
。有没有人能给出一个简单明了
的
例子来理解级联
中
的
笛卡尔
连接
?
浏览 0
提问于2016-04-08
得票数 1
1
回答
如何设置MEMORY_AND_DISK标志以防止
PySpark
在木星中出现
内存
错误?
、
、
我正在处理大量
的
数据,这些数据无法通过
PySpark
中
的
可用
内存
进行处理,这会导致
内存
不足。为此,我需要使用MEMORY_AND_DISK选项。我
的
问题是:如何在
PySpark
朱庇特笔记本
中
启用这个标志?我在找这样
的
东西: .master('lo
浏览 3
提问于2020-06-09
得票数 0
回答已采纳
4
回答
笛卡尔
乘积和交叉
连接
有什么不同?
我在SQL Server2008上工作,想知道
笛卡尔
乘积和交叉
连接
之间
的
区别。有人能帮我澄清一下这个概念吗?
浏览 1
提问于2012-08-08
得票数 23
回答已采纳
1
回答
星星之火-卡桑德拉,如何基于查询获取数据
、
、
、
我有一个卡桑德拉表,这是相当大
的
,现在我有火花-卡桑德拉与以下代码
连接
。import pandas as pdfrom
pyspark
import *from
pyspark
.sql import SQLContextload()将整个表加载到
内存
中
,这是我想避免
的
。我得到
的
一种方法是使用过滤器 .format(&qu
浏览 2
提问于2021-07-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP 实现数学中的排列组合 笛卡尔积
数据在内存中的存储
Java中数组的内存分析
Java中的内存泄露的几种可能
13 张图解 Java 中的内存模型
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券