腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
filter
和
basePath+full-filter
-path
读取
spark
数据
集
有
区别
吗
?
、
关于按列划分的
数据
集
的
读取
效率,是否存在以下差异: // (1) read all dataset then
filter
spark</em
浏览 23
提问于2020-09-25
得票数 0
回答已采纳
2
回答
如何了解各种
spark
应用统计
数据
、
、
Spark
Job: //
数据
读取
/加载val df2 =
spark
.sql("select colListfrom table2")val df1_
filter
= df1.
filter
("cond") va
浏览 0
提问于2018-10-19
得票数 0
1
回答
火花放电中StaticDataFrame与静态DataFrame的
区别
、
我正在阅读
Spark
2.2.0文档,发现这是对Static DataFrames 的奇怪引用 因为
Spark
2.0,DataFrames和
数据
集
可以表示静态的、有界的
数据
,以及流的、无界的
数据
。与静态
数据
集
/DataFrames类似,您可以
使用
公共入口点SparkSession (Scala/Java/Python/R )从流源创建流DataFrames/Datasets,并对它们应
浏览 1
提问于2017-12-24
得票数 1
回答已采纳
3
回答
Apache火花中的map与
filter
来自Apache
Spark
的官方文档: 用粗体的话来说,这是一个很大的
区别
吗
?这真的是一个
区别
吗
?
浏览 7
提问于2018-01-06
得票数 2
回答已采纳
1
回答
了解
spark
应用程序如何
使用
依赖关系
、
、
假设我们
有
spark
应用程序向HDFS写入/从HDFS
读取
数据
,我们
有
一些额外依赖项,我们称其为dep。(1)
spark
的版本对发送的依赖项
有
什么影响?我的意思是
spark
-with-hadoop/bin
浏览 1
提问于2020-10-15
得票数 0
1
回答
Azure
数据
湖的火花谓词下推、过滤
和
分区剪枝
、
、
、
、
为了了解
读取
的
数据
量,我一直在阅读关于火花谓词、下推
和
分区剪枝的文章。我对此
有
以下疑问 假设我
有
一个包含(年份: Int,SchoolName: String,StudentId: Int,SubjectEnrolled: String)列的
数据
集
,其中存储在磁盘上的
数据
按年份
和
1)如果我发出一个read
spark
.read(容器).
filter
(Year=2019,SchoolName=&quo
浏览 1
提问于2019-09-27
得票数 3
回答已采纳
1
回答
如何在
Spark
2.0中从DataFrame列创建
数据
集
?
、
、
可以从
Spark
2.0中的Dataframe列创建
数据
集
吗
?我
有
一个问题:我想从按日期分区的拼图
数据
中
读取
一些
数据
,然后将其中一列转换为Dataset。示例: val frame =
spark
.read.parquet(path).select($"date", $"object".as[MyObjectType]).
filter
($"date" >
浏览 3
提问于2016-12-06
得票数 1
2
回答
星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE
、
、
我试图计算负样本的数量,如下所示:但我得到的大小超过了Integer.MAX_VALUEat org.apache.
spark
.rdd.RDD.iterator(RDD.scala:268) at org.apache.
spark
.rdd.MapPartitionsRDD.computeat org.apache.
spark
.rdd.RDD.iterator(RDD.s
浏览 0
提问于2018-04-13
得票数 0
回答已采纳
2
回答
在PySpark中
读取
文件在
读取
整个目录,然后过滤
和
读取
目录的一部分之间
有
什么
区别
?
、
、
假设我
有
一个每天运行的
数据
模型,示例HDFS路径为 data_model/sales_summary/grass_date=2021-04-01 如果我想阅读2月
和
3月的所有模型,如果我按以下两种方式阅读,
有
什么
区别
: 答:
spark
.read.parquet('data_model/sales_summary/grass_date=2021-0{2,3}*') B:
spark
.read.parquet(&
浏览 23
提问于2021-04-14
得票数 2
回答已采纳
3
回答
Spark
local vs hdfs permormance
、
、
我在同一台机器上有一个
Spark
集群
和
一个Hdfs。我已经在每台机器的本地文件系统
和
hdfs分布式文件系统上复制了一个大约3G字节的文本文件。为什么?我所期望的结果正好相反。在sgvd的请求后添加:
Spark
Standalone,无特殊设置(复制系数3)import sys sys.pa
浏览 0
提问于2016-01-13
得票数 5
1
回答
PySpark过滤
数据
帧并将
数据
帧写入mysql
数据
库
、
、
、
、
我正在尝试写
数据
帧到MySql DB
和
使用
Apache
Spark
2.3.1。它有20K到30K的行从mySql
读取
,并
使用
20个分区进行分区。我首先过滤
数据
帧,并尝试将过滤后的结果
集
写入mysql DB。 但是写操作变得太慢。在没有过滤的情况下,df写操作正在按照预期的速度
和
性能执行。有人能帮上忙
吗
?我的代码: dataFrame =
spark
.read.format('jdbc
浏览 24
提问于2021-10-15
得票数 0
1
回答
从循环中的
Spark
数据
集中
读取
行
数据
、
、
、
我想用Java在循环中
读取
spark
数据
集
行,并且我必须在其中
读取
其他
数据
集
。假设ds是
数据
集
,如果如下所示的写入循环,我可以
读取
其他
数据
集
ds.toJavaRDD().collect().forEach() 但我删除了collect()
和
JavaRDD()并直接应用 ds.foreach() 那么我就不能
读取
其他
数据
浏览 48
提问于2021-08-26
得票数 1
1
回答
火花会话文本和文本文件方法之间的
区别
?
、
、
、
、
我正在
使用
,并尝试从文本文件中创建
数据
和
数据
集
。要从文本文件获取
数据
集
,
有
两个选项,文本
和
textFile方法,如下所示:csv format jdbc json load optionoptions orc parquet schema table text textFile 下面是如何从这两种方法获取
数据
集
浏览 0
提问于2019-03-28
得票数 1
回答已采纳
1
回答
如何从DataFrame中提取文件
和
筛选条件?
、
我
有
一个DataFrame,其中包含要处理的CSV文件的名称。testFile.txt XF value1 value2CSV文件(在FileName列下)可在总大小为5TB的上
使用
我想
读取
第一列(即文件名),然后打开/
读取
文件,并获得与FilterData中的模式匹配的记录。我想要获取文件的
数据
(从Dataframe
读取
第一列),然后根据FilterData列过滤记录--
浏览 1
提问于2017-05-08
得票数 0
回答已采纳
1
回答
在scala中,有没有办法禁止用',‘分隔csv文件,而只用',’分隔csv文件
、
、
我正在
使用
scala
读取
csv文件来填充
数据
集
,并且我面临着分隔符问题,这是由于我的一些字段中包含',‘。
数据
如A、B、C(temp、temp1、temp3)、D、E 这是针对
spark
Dataset的,在
spark
dataset中,我尝试
读取
文件,然后将其映射到dataset模式,但似乎不起作用。我观察到了实际分隔符是',‘的
区别
,它不应该用',’分隔。
浏览 0
提问于2019-05-01
得票数 0
1
回答
持久化比非持久化调用慢
、
spark
.executor.memory=6G,
spark
.executor.cores=6 首先,我正在
读取
蜂窝表: orders (329 am )
和
lineitems (1.43GB),并执行左外部联接接下来,我根据连接的
数据
集
(比如var line1 = joinedDf.
filter
("linenumber=1")、var line2 = joinedDf.
filter
("l_linenumber因为我对已连接
浏览 0
提问于2017-09-07
得票数 1
回答已采纳
2
回答
当
使用
过滤器时,
spark
会加载来自Kudu的所有
数据
吗
?
、
我是
spark
的新手。下面的代码将加载所有
数据
,还是只从kudu中过滤
数据
?val df: DataFrame =
spark
.read.options(Map( "kudu.table" -> s"impala${table}")).kudu val recordAt: Long
浏览 1
提问于2019-08-14
得票数 1
1
回答
火花过滤器操作顺序为O(1)或O(n)
、
、
我试图理解火花的概念,但只是在某一点上感到困惑,我想知道
spark
.
filter
是O(n)还是O(1),如果我先对
数据
进行排序,然后进行过滤,它是否会对顺序复杂性产生任何影响。因此,我们会尽量详细解释:-Case 1 :
Spark
.
filter
(id.equals(3)) Case 2 :
Spark
.sortBy(id).
filter
浏览 0
提问于2018-10-09
得票数 1
回答已采纳
1
回答
用于大型csv文件的sparklyr
、
、
我正在尝试
使用
sparklyr加载一个包含一百万行
和
1000列的
数据
集
。我在工作中的一个非常大的集群上运行
Spark
。尽管如此,
数据
的规模似乎太大了。我尝试了两种不同的方法:1) -将路径放入hdfs -
spark
_read_csv(
spark
_context,.csv ) 2) -将csv文件作为常规R dataframe
读取
-
s
浏览 2
提问于2017-05-30
得票数 0
1
回答
将一个dataframe列值传递给另一个dataframe筛选条件表达式+
Spark
1.5
、
、
我
有
两个输入
数据
集
,第一个输入
数据
集
如下所示:"2012","Tesla","S","No comment",2012_cars,year=2012 and model ='S' 2015_cars ,year=2015 and model = 'V
浏览 1
提问于2016-02-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据hadoop和spark有什么区别?内附大数据Spark+Hadoop资料
遇见YI算法之初识Pyspark(二)
使用微信的用户你知道吗?转账和红包有3种区别,千万要记住!
使用Spark将本地文件读取并封装为DataFrame的完整指南
一个Python大数据处理利器:PySpark入门指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券