腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
大
数据
集
创建
数据
帧
,
而
不
将其
加
载到
驱动
程序上
、
由于
驱动
程序内存不足,我需要将大型
数据
集
转换为dataframe。该
数据
是
从
HTTP请求/响应接收的。(dataFromHttp不应该加
载到
驱动
上)
浏览 6
提问于2019-12-19
得票数 1
1
回答
使用pd.read_csv忽略仅包含缺少值的列
、
、
、
我已经
创建
了一个使用pd.read_csv读入
数据
的应用程序。我们得到的一些
数据
集
的列只包含缺少的值(空单元格)。有没有办法使用pandas
而
不将这些列加
载到
数据
帧
中?由于
数据
集
可能非常
大
,因此在预加载阶段忽略它们会更方便。 当然,我可以将它们
从
excel表格中删除,但我的目标是使
数据
加载尽可能自动化。
浏览 20
提问于2020-04-30
得票数 0
1
回答
Dask DataFrame能和大熊猫DataFrames一起工作吗?
、
、
我想使用Dask来处理大型
数据
帧
。然而,当我尝试使用它时,我得到了一个内存错误,如下所示。({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的
数据
浏览 7
提问于2019-03-06
得票数 0
回答已采纳
1
回答
将psycopg2查询结果写入pyspark dataframe
、
、
有没有一种方法可以使用psycopg2库直接将表的内容
从
postgresQL
数据
库中提取到pyspark
数据
帧
中? 到目前为止,网上的解决方案只讨论了使用熊猫
数据
帧
。但对于spark中非常
大
的
数据
集
,这是不可能的,因为它会将所有
数据
加
载到
驱动
程序节点。conn.cursor() cur.execute("select * from database.table limit
浏览 28
提问于2021-09-27
得票数 0
回答已采纳
2
回答
Spark中的
数据
帧
列表
、
在Spark中
创建
数据
帧
列表是否可取?方法读取x个文件以从中
创建
x个
数据
帧
。这些
数据
帧
被推送到列表中。此方法
从
驱动
程序调用,并返回通过在列表中联接
数据
集
而
创建
的单个
数据
框。 我搞不懂这个列表将在哪里形成,是在
驱动</e
浏览 11
提问于2019-07-13
得票数 1
2
回答
以分布式方式读取Spark中的CSV文件
、
、
我正在开发一个Spark处理框架,它读取大型CSV文件,将它们加
载到
RDD中,执行一些转换,最后保存一些统计
数据
。当我使用sparkContext.textFile()函数加载文件时,是否需要首先将文件存储在
驱动
程序的内存中,然后
将其
分发给工作人员(因此需要在
驱动
程序上
占用相当
大
的内存)?或者,文件由每个员工“并行”读取,在某种程度上,他们都不需要存储整个文件,
而
驱
浏览 0
提问于2017-02-10
得票数 7
回答已采纳
2
回答
有没有办法将本地
数据
集
文件夹直接
从
google drive加
载到
google colab?
、
、
see the image carefully我无法加载自定义
数据
文件夹
从
谷歌
驱动
器到谷歌colab.though我安装谷歌drive.like
而
不是MNIST
数据
集
,我想加载我自己的图像
数据
集
文件夹假设我在google drive.how中有图像
数据
集
,以便
将其
加
载到
google colab?cat /content/gdrive/My\ Drive
浏览 3
提问于2018-12-13
得票数 0
1
回答
Spark RDD到Dataframe
、
、
下面是文件中的
数据
1|C1|IDD|NA20|C3|IDDD|NA| 20|C3|IDDD|NA|| 30|C5|IDDD|NA|我无法
将其
转换为具有确切表格形式的
数据
浏览 0
提问于2019-04-03
得票数 0
1
回答
将存储为Azure Blob的CSV直接加
载到
Pandas
数据
帧
中,
而
不
首先保存到磁盘
、
、
探索了与熊猫 ()一起存储的Azure存储中的
数据
,展示了如何将
数据
从
Azure blob商店加
载到
Pandas
数据
框架中。他们首先下载blob并
将其
本地存储为CSV文件,然后将该CSV文件加
载到
数据
帧
中。CONTAINERNAME, BLOBNAME, LOCALFILENAME)是否有一种方法可以直接将blob拉到
数据
<em
浏览 0
提问于2019-11-22
得票数 1
3
回答
在同一个df中扩展
、
、
、
、
我正在寻找基于任何数字的扩展
数据
集
,例如,(5)import pandas as pdprint (df)df = pd.DataFrame({"X": ["A", "A&qu
浏览 4
提问于2022-08-11
得票数 0
回答已采纳
2
回答
PySpark:拉取
数据
到
驱动
,然后上传到dataframe
、
我正在尝试
从
外部
数据
库中存储的
数据
创建
一个pyspark dataframe。我使用pyodbc模块连接到
数据
库并提取所需的
数据
,然后使用spark.createDataFrame将
数据
发送到集群进行分析。我使用--deploy-mode client运行脚本,因此
驱动
程序在主节点上运行,但是执行器可以分布到其他机器上。问题是pyodbc没有安装在任何工作节点上(这很好,因为我
不
希望它们都查询
数据
库),所以当我尝试在
浏览 0
提问于2018-06-23
得票数 0
1
回答
根据R
数据
框中的条件使用R查询MS SQL
、
我在MS SQL Server中有一个相当
大
的表(1.2亿行),我想要查询它。我还在R中有一个
数据
帧
,它具有惟一的ID,我希望
将其
用作查询条件的一部分。我熟悉dplyr包,但不确定是否有可能在MS SQL服务器上执行R查询,
而
不是将所有
数据
都存储到我的笔记本电脑内存中(可能会使我的笔记本电脑崩溃)。当然,另一种选择是将
数据
帧
作为表加
载到
sql上,这是我目前正在做的,但我
不
希望这样做。
浏览 2
提问于2017-07-13
得票数 3
回答已采纳
1
回答
在AWS Lambda中使用EFS (内存问题)
、
、
、
、
如果文件不是那么
大
,但是由于内存限制(使用最大内存和lambda的时间)文件超过2-3GB,则工作效率很高。文件最初位于S3,我想知道在这个场景中是否可以使用EFS?我是否需要将文件
从
S3传输到EFS以打开它们?或者有一个更好的解决方案,我可以直接将文件
从
S3加
载到
EFS,然后用熊猫打开它们。
浏览 1
提问于2021-03-01
得票数 2
回答已采纳
3
回答
大型xdf文件上的随机森林,无需读取
数据
帧
、
有没有办法在
大
的(大约10 Is ) xdf (旋转R格式)文件上运行随机森林?显然,我可以尝试rxReadXdf并
将其
转换为dataframe...but,我的机器只有8 8gb内存,将来我可能要处理更大的
数据
集
。有没有一种方法可以直接在xdf上运行随机森林,
而
不需要读取
数据
帧
? 干杯,阿
加
贝
浏览 0
提问于2012-09-17
得票数 5
回答已采纳
1
回答
星火DataFrame如何处理比内存更大的潘达斯DataFrame
、
、
、
、
我现在正在学习Spark,它似乎是Pandas Dataframe的大
数据
解决方案,但是我有一个让我不确定的问题。 目前,我使用HDF5存储比内存更大的Pandas
数据
文件。HDF5是一个很好的工具,它可以让我在熊猫的
数据
上分块。因此,当我需要对大型Pandas
数据
进行处理时,我将以块的形式进行处理。但Pandas不支持分布式处理,HDF5仅适用于单个PC环境。使用Spark可能是解决方案,但我对Spark的理解是,dataframe必须能够适应内存,并且一旦作为Spark
数据
存储加载,Spark将将<e
浏览 0
提问于2015-10-29
得票数 5
回答已采纳
1
回答
有没有办法把协方差矩阵(或类似的东西)输入到R中的lme4中?
、
、
、
、
我有一个
从
数据
仓库中提取的非常
大
的
数据
集
。要将
数据
集
下
载到
我想要运行lme4的机器上,需要很长时间。我想知道是否可以将
数据
处理成协方差矩阵,下载该
数据
(小得多),并
将其
用作lme4的
数据
输入。我已经使用SAS为多个回归模型做了类似的事情,我希望我可以为lme4
创建
这种类型的输入。 谢谢。
浏览 9
提问于2013-02-06
得票数 0
2
回答
加载tensorflow图像并
创建
补丁
、
、
、
我使用将一个非常
大
的RGB图像
数据
集
从
磁盘加
载到
一个中。<directory>, seed=1, validation_split=0.1) 例如,该
数据
集
有因此,我想要
创建
一个新的
数据
集
,该
数据
集
的400000个补丁仍在32的批处理中,其中包含一
浏览 5
提问于2020-10-12
得票数 2
回答已采纳
1
回答
尽量避免收集
、
、
、
我发现,对于任何使用spark的人(在我使用Scala的例子中),一个普遍的建议是避免任何将所有
数据
从
执行程序获取到
驱动
程序的操作(收集、计数、求和等)。然而,当我尝试使用星火统计库时,我发现关联矩阵和ChiSquareTest方法期望数组或矩阵作为它们的参数,因此,如果我想使用这个函数,我就无法避免对
数据
进行收集(以及一些更多的操作,以使向量不属于行类型
浏览 3
提问于2020-07-13
得票数 2
回答已采纳
1
回答
如何处理pandas中的聚合
数据
?
、
我有一个
数据
集
,如下所示: 1 3 6 9我无法
将其
加
载到
熊猫
数据
帧
中,因为它太大了。因此,我使用Spark聚合
数据
以形成: 1 2 4 1 9 1 ..并
将其
加
载到
熊猫
数据
帧
中。&q
浏览 0
提问于2018-09-18
得票数 1
3
回答
从
pandas.HDFStore表中选择列
、
、
如何
从
pandas HDFStore中检索特定列?我经常处理非常
大
的
数据
集
,这些
数据
集
太大,无法在内存中操作。我想迭代地读入csv文件,将每个块附加到HDFStore对象中,然后处理
数据
的子集。我读入了一个简单的csv文件,并使用以下代码
将其
加
载到
HDFStore中:chunker = pd.read_csv('cars.csv',所提
浏览 1
提问于2012-12-18
得票数 18
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用机器学习预测2018年世界杯足球赛
谷歌开源 TFRecorder,几行代码即可高效创建数据集
通过这10个教程学习Maya的基础知识(二)
3dMax游戏建模制作动画技巧、方法总结
全球AI创建技术再起高潮,影谱科技AI生成技术表现亮眼
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券