腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1749)
视频
沙龙
1
回答
动态
构建
用于
导
出到
csv
的
大型
数据
帧
(
spark
或
pandas
)
的
方法
、
、
、
、
我有一个
csv
,我使用
spark
.read导入到databricks中。这个大文件包含每日级别的记录/事务。我将
数据
帧
减少到5列,并保持500,000行不变。我正在尝试
构建
这个源文件
的
汇总表,它在一个月级别(聚合)表示这些记录/事务。 该脚本有一个filter/groupby/sum命令,该命令返回一行,将
数据
汇总为一个月
的
计数。我在使用此脚本
的
输出(显示
或
csv</e
浏览 12
提问于2020-07-12
得票数 0
1
回答
读取
CSV
后使用奇怪
的
值触发
数据
帧
、
、
、
我来自here,正在尝试从Pyspark中
的
this dataset中读取正确
的
值。我使用df =
spark
.read.
csv
("hashtag_donaldtrump.
csv
", header=True, multiLine=True)取得了很好
的
进展,但现在我在一些单元格中有一些奇怪
的
值,如您在下面的图片(最后一行)中所看到
的
: ? 否则,如何使用另一个程序读取带格式
的
CSV
?对我来说
浏览 13
提问于2021-01-15
得票数 0
1
回答
如何迭代
大型
Pyspark Dataframe中列
的
不同值?.distinct().collect()引发
大型
任务警告
、
我正在尝试迭代一个
大型
Pyspark Dataframe列中
的
所有不同值。当我尝试使用.distinct().collect()执行此操作时,即使只有两个不同
的
值,它也会发出“任务太大”警告。下面是一些示例代码:length = 200000 data =
spark
.createDat
浏览 1
提问于2020-01-14
得票数 1
3
回答
如何创建
动态
数据
帧
、
、
、
、
我试图创建一个
数据
框,我之所以以下面的方式指定创建
数据
框,是为了使其成为
动态
的
,但表达式是作为字符串传递
的
,并且exec命令无法创建
数据
框并将其赋值给变量。下面是我
的
代码: value ='true' header='header'a= "
spark
.read.option(
浏览 18
提问于2020-02-08
得票数 0
3
回答
我可以将
pandas
数据
帧
转换为
spark
rdd吗?
c)需要使用
spark
将PD_DF写到HDFS。我该怎么做呢?
浏览 0
提问于2015-04-15
得票数 4
2
回答
Pyspark将多个
csv
文件读取到一个
数据
帧
中(
或
RDD?)
、
、
、
、
我需要使用
spark
-
csv
将其加载到三个独立
的
数据
帧
中,具体取决于文件
的
名称。我还知道在
spark
中有一些通配符功能(参见) -我可能可以利用 最后,我可以使用
pandas
从磁盘加载vanilla
csv
文件作为
pandas
数据
帧
,然后创建
spark
数据
帧
。1
或
2吗?此外,我很惊讶
的
是,没有
浏览 0
提问于2016-12-14
得票数 7
回答已采纳
4
回答
更快地读取
csv
文件
、
我目前正在读入一个很大
的
csv
文件(大约100万行),使用中描述
的
命令,例如:with open('eggs.
csv
', 'rb') as csvfile: for row in spamreader: process_ro
浏览 1
提问于2016-10-07
得票数 0
1
回答
在df.toPandas().to_
csv
('mycsv.
csv
')之后,
数据
在重新读取时会被混淆
、
、
我有一张名叫result_25
的
桌子。我使用此代码成功地将
数据
导
出到
磁盘上
的
csv
。result_25.toPandas().to_
csv
('mycsv.
csv
')rr =
spark
.read.
csv
('mycsv.
csv
',inferSchema=True, header=True) 我查了
数据
,看上
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
将
数据
帧
导
出到
csv
时出现问题
、
、
、
、
对于下面的代码,用户输入他们
的
压缩机
的
气缸数量。然后创建具有正确列数
的
数据
帧
,并将其作为
CSV
文件导
出到
Excel。输出
的
数据
帧
看起来与我想要
的
完全一样,如第一个链接所示,但在Excel中打开它时,它看起来像第二个链接中
的
图像: 1.my dataframe 2.Excel Table 为什么我
的
数据
框不能正确地导
出到
Excel
浏览 11
提问于2020-09-25
得票数 0
2
回答
在使用groupBy后保存
数据
框视图
、
、
、
我
的
家庭作业让我很难受。在groupBy之后,我
的
"df2“视图如下: df2.groupBy('years').count().show()|years|count|| 2001|11532|| 2000| 7462|| 2002|11799| +-----+-----+ 每次尝试将其保存(然后用
pandas
加载)到一个文件时,都会返回我使用pypspark读取
的
浏览 19
提问于2020-12-03
得票数 0
回答已采纳
1
回答
跨节点分发RDD
或
数据
帧
的
复制副本
、
我正在尝试
构建
一个组件,它可以
动态
地将一个
大型
数据
集连接到多个小得多
的
数据
集。我已经将较大和较小
的
数据
集作为
数据
帧
保存在内存中。随着用户输入
的
到来,我需要选择大
数据
集
的
一个子集,并用较小
数据
集中
的
一些信息来丰富它。 不幸
的
是,这些
动态
连接被证明是昂贵
的
,以分钟而不是秒为数量级
浏览 2
提问于2016-02-11
得票数 0
0
回答
我真的可以使用字典而不是
动态
赋值变量吗?
、
、
、
、
这里
的
目标是读入许多
csv
文件,每个文件都读入一个单独
的
Pandas
数据
帧
。下面三行中
的
第三行在"=“之前是错误
的
。我读过很多关于使用字典而不是
动态
变量
的
帖子,但我不明白如何在这里应用它。除了globals()
方法
之外,是否还有其他
方法
,这似乎有很多反对意见?testlist = ['A', 'B', 'C']
浏览 1
提问于2017-11-29
得票数 0
回答已采纳
2
回答
如何为
数据
表创建一个类似电子表格
的
布局?
、
、
、
我正在尝试创建一个在线仪表板,填充所有的
数据
从我
的
数据
库到一个表和即时通讯使用javascript
数据
表插件。但我想创建一个更好
的
方式,想要一个类似谷歌电子表格
的
布局,其中电子表格元组可以编辑
或
保存类似谷歌电子表格。 我使用
的
是python 2.7,所以有人能帮我解决这个问题吗?
浏览 1
提问于2017-04-18
得票数 1
1
回答
将
大型
数据
框导
出到
可供Power BI使用
的
单个文件
的
最佳
方法
、
、
我
的
最终
数据
帧
大约有9800万行。 我需要将其从Databricks导出,以便我可以将其导入Power BI进行报告。Power BI目前似乎没有一个连接器可以解释分区
的
性质,如果我只是简单地将
数据
帧
写入
CSV
。使用合并
或
转换为
pandas
数据
帧
并导
出到
CSV
的
速度非常慢,并且容易受到群集上
的
资源限制。我尝试过上述两种
方
浏览 10
提问于2019-04-29
得票数 0
2
回答
使用复制命令-pyspark将
数据
帧
触发到Postgres
、
、
我需要写一个
spark
数据
帧
到Postgres DB。我尝试了以下
方法
.format("
csv
").save(path'type‘对象不可迭代output= io.StringIO() df.to_
csv
浏览 1
提问于2018-07-30
得票数 2
3
回答
在星火上运行
Pandas
有什么用?
、
这周我刚开始使用PySpark,我已经安装了access 2
的
实例已经安装了
Pandas
。但是在星火上拥有熊猫有什么用呢?在PySpark上运行脚本不就是为了克服像
Pandas
这样
的
软件包
的
局限性吗? 如果
Pandas
在星火上运行,它
的
性能会提高吗?它与星火
的
RDD兼容吗?
浏览 0
提问于2017-01-13
得票数 4
2
回答
如何使用PySpark将这些多个
csv
文件(大约130,000个)有效地合并为一个
大型
数据
集?
、
、
、
、
我之前发布了这个问题,并得到了一些使用PySpark
的
建议。 下面的压缩文件()包含一个名为data
的
文件夹,其中包含大约130,000个
csv
文件。我想把它们合并到一个单独
的
数据
帧
中。如果您打开任何
csv
文件,您可以看到它们都具有相同
的
格式,第一列
用于
日期,第二列
用于
数据
系列。所以现在我改用PySpark,但是我不知道连接所有文件
的
最有效
的
方法</em
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
2
回答
大型
python字典。存储、加载和写入
、
、
、
、
我有一个很大
的
python值字典(大约50 GB),并将其存储为JSON文件。当涉及到打开文件和写入文件时,我遇到了效率问题。我是否应该使用Python字典来存储我
的
数据
?python字典有多大有限制吗?(字典会变得更大)。任何帮助都将不胜感激。谢谢!
浏览 1
提问于2018-12-25
得票数 6
2
回答
将SQL查询从Python导
出到
txt文件
、
、
我试图将我从
数据
库中查询
的
数据
导
出到
txt文件中。我可以用.to_
csv
方法
来实现这一点,但是它可以用空格导出。我尝试将查询中
的
(sep)设置为无空格,但它迫使我至少使用一个空格
或
项作为分隔符。是否有任何
方法
将
数据
导
出到
txt文件,而在导出之间没有任何空格?
数据
帧
用于
导
出到
.txt
的
代码 dataf
浏览 18
提问于2021-03-31
得票数 1
回答已采纳
1
回答
快速参考
Pandas
中
的
长名称
我有一个
数据
帧
,它
的
名字很长,很有描述性。我不想像python用户
的
许多典型建议那样,通过截断名称并用_代替空格来屠宰名称。如果截断
的
列名足以唯一标识df.This、df.Anot、df.Yet等列,是否可以将
pandas
设置为识别该列名 或者可能有一种
方法
将字典传递给dataframe类,这样使用截断
的
名称将自动与更长
的
引用相关联
浏览 13
提问于2020-11-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
如何只用一行代码让Pandas加速四倍?
12种高效Numpy&Pandas使用技巧!
pandas系列学习(三):DataFrame
Python学习笔记(五)
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券