使用filter和basePath+full-filter-path读取spark数据集有区别吗？

、

关于按列划分的数据集的读取效率，是否存在以下差异： // (1) read all dataset then filterspark</em

浏览 23提问于2020-09-25得票数 0

回答已采纳

2回答

如何了解各种spark应用统计数据

、、

Spark Job: //数据读取/加载val df2 = spark.sql("select colListfrom table2")val df1_filter = df1.filter("cond") va

浏览 0提问于2018-10-19得票数 0

1回答

火花放电中StaticDataFrame与静态DataFrame的区别

、

我正在阅读Spark2.2.0文档，发现这是对Static DataFrames 的奇怪引用因为Spark2.0，DataFrames和数据集可以表示静态的、有界的数据，以及流的、无界的数据。与静态数据集/DataFrames类似，您可以使用公共入口点SparkSession (Scala/Java/Python/R )从流源创建流DataFrames/Datasets，并对它们应

浏览 1提问于2017-12-24得票数 1

回答已采纳

3回答

Apache火花中的map与filter

来自Apache Spark的官方文档：用粗体的话来说，这是一个很大的区别吗?这真的是一个区别吗？

浏览 7提问于2018-01-06得票数 2

回答已采纳

1回答

了解spark应用程序如何使用依赖关系

、、

假设我们有spark应用程序向HDFS写入/从HDFS读取数据，我们有一些额外依赖项，我们称其为dep。(1) spark的版本对发送的依赖项有什么影响？我的意思是spark-with-hadoop/bin

浏览 1提问于2020-10-15得票数 0

1回答

为了了解读取的数据量，我一直在阅读关于火花谓词、下推和分区剪枝的文章。我对此有以下疑问假设我有一个包含(年份: Int，SchoolName: String，StudentId: Int，SubjectEnrolled: String)列的数据集，其中存储在磁盘上的数据按年份和1)如果我发出一个read spark.read(容器).filter(Year=2019，SchoolName=&quo

浏览 1提问于2019-09-27得票数 3

回答已采纳

1回答

如何在Spark2.0中从DataFrame列创建数据集？

、、

可以从Spark 2.0中的Dataframe列创建数据集吗？我有一个问题:我想从按日期分区的拼图数据中读取一些数据，然后将其中一列转换为Dataset。示例： val frame = spark.read.parquet(path).select($"date", $"object".as[MyObjectType]).filter($"date" >

浏览 3提问于2016-12-06得票数 1

2回答

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

、、

我试图计算负样本的数量，如下所示：但我得到的大小超过了Integer.MAX_VALUEat org.apache.spark.rdd.RDD.iterator(RDD.scala:268) at org.apache.spark.rdd.MapPartitionsRDD.computeat org.apache.spark.rdd.RDD.iterator(RDD.s

浏览 0提问于2018-04-13得票数 0

回答已采纳

2回答

在PySpark中读取文件在读取整个目录，然后过滤和读取目录的一部分之间有什么区别？

、、

假设我有一个每天运行的数据模型，示例HDFS路径为 data_model/sales_summary/grass_date=2021-04-01 如果我想阅读2月和3月的所有模型，如果我按以下两种方式阅读，有什么区别：答： spark.read.parquet('data_model/sales_summary/grass_date=2021-0{2,3}*') B： spark.read.parquet(&

浏览 23提问于2021-04-14得票数 2

回答已采纳

3回答

Spark local vs hdfs permormance

、、

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3G字节的文本文件。为什么？我所期望的结果正好相反。在sgvd的请求后添加：Spark Standalone，无特殊设置(复制系数3)import sys sys.pa

浏览 0提问于2016-01-13得票数 5

1回答

PySpark过滤数据帧并将数据帧写入mysql数据库

、、、、

我正在尝试写数据帧到MySql DB和使用Apache Spark 2.3.1。它有20K到30K的行从mySql读取，并使用20个分区进行分区。我首先过滤数据帧，并尝试将过滤后的结果集写入mysql DB。但是写操作变得太慢。在没有过滤的情况下，df写操作正在按照预期的速度和性能执行。有人能帮上忙吗？我的代码： dataFrame = spark.read.format('jdbc&#

浏览 24提问于2021-10-15得票数 0

1回答

从循环中的Spark数据集中读取行数据

、、、

我想用Java在循环中读取spark数据集行，并且我必须在其中读取其他数据集。假设ds是数据集，如果如下所示的写入循环，我可以读取其他数据集 ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能读取其他数据

浏览 48提问于2021-08-26得票数 1

1回答

火花会话文本和文本文件方法之间的区别？

、、、、

我正在使用，并尝试从文本文件中创建数据和数据集。要从文本文件获取数据集，有两个选项，文本和textFile方法，如下所示：csv format jdbc json load optionoptions orc parquet schema table text textFile 下面是如何从这两种方法获取数据集

浏览 0提问于2019-03-28得票数 1

回答已采纳

1回答

如何从DataFrame中提取文件和筛选条件？

、

我有一个DataFrame，其中包含要处理的CSV文件的名称。testFile.txt XF value1 value2CSV文件(在FileName列下)可在总大小为5TB的上使用我想读取第一列(即文件名)，然后打开/读取文件，并获得与FilterData中的模式匹配的记录。我想要获取文件的数据(从Dataframe读取第一列)，然后根据FilterData列过滤记录--

浏览 1提问于2017-05-08得票数 0

回答已采纳

1回答

在scala中，有没有办法禁止用'，‘分隔csv文件，而只用'，’分隔csv文件

、、

我正在使用scala读取csv文件来填充数据集，并且我面临着分隔符问题，这是由于我的一些字段中包含'，‘。数据如A、B、C(temp、temp1、temp3)、D、E 这是针对spark Dataset的，在spark dataset中，我尝试读取文件，然后将其映射到dataset模式，但似乎不起作用。我观察到了实际分隔符是'，‘的区别，它不应该用'，’分隔。

浏览 0提问于2019-05-01得票数 0

1回答

持久化比非持久化调用慢

、

spark.executor.memory=6G，spark.executor.cores=6 首先，我正在读取蜂窝表: orders (329 am )和lineitems (1.43GB)，并执行左外部联接接下来，我根据连接的数据集(比如var line1 = joinedDf.filter("linenumber=1")、var line2 = joinedDf.filter("l_linenumber因为我对已连接

浏览 0提问于2017-09-07得票数 1

回答已采纳

2回答

当使用过滤器时，spark会加载来自Kudu的所有数据吗？

、

我是spark的新手。下面的代码将加载所有数据，还是只从kudu中过滤数据？val df: DataFrame = spark.read.options(Map( "kudu.table" -> s"impala${table}")).kudu val recordAt: Long

浏览 1提问于2019-08-14得票数 1

1回答

火花过滤器操作顺序为O(1)或O(n)

、、

我试图理解火花的概念，但只是在某一点上感到困惑，我想知道spark.filter是O(n)还是O(1)，如果我先对数据进行排序，然后进行过滤，它是否会对顺序复杂性产生任何影响。因此，我们会尽量详细解释:-Case 1 : Spark.filter(id.equals(3)) Case 2 : Spark.sortBy(id).filter

浏览 0提问于2018-10-09得票数 1

回答已采纳

1回答

用于大型csv文件的sparklyr

、、

我正在尝试使用sparklyr加载一个包含一百万行和1000列的数据集。我在工作中的一个非常大的集群上运行Spark。尽管如此，数据的规模似乎太大了。我尝试了两种不同的方法：1) -将路径放入hdfs - spark_read_csv(spark_context，.csv ) 2) -将csv文件作为常规R dataframe读取- s

浏览 2提问于2017-05-30得票数 0

1回答

将一个dataframe列值传递给另一个dataframe筛选条件表达式+Spark1.5

、、

我有两个输入数据集，第一个输入数据集如下所示："2012","Tesla","S","No comment",2012_cars,year=2012 and model ='S' 2015_cars ,year=2015 and model = 'V

浏览 1提问于2016-02-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何了解各种spark应用统计数据

火花放电中StaticDataFrame与静态DataFrame的区别

Apache火花中的map与filter

了解spark应用程序如何使用依赖关系

Azure数据湖的火花谓词下推、过滤和分区剪枝

如何在Spark2.0中从DataFrame列创建数据集？

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

在PySpark中读取文件在读取整个目录，然后过滤和读取目录的一部分之间有什么区别？

Spark local vs hdfs permormance

PySpark过滤数据帧并将数据帧写入mysql数据库

从循环中的Spark数据集中读取行数据

火花会话文本和文本文件方法之间的区别？

如何从DataFrame中提取文件和筛选条件？

在scala中，有没有办法禁止用'，‘分隔csv文件，而只用'，’分隔csv文件

持久化比非持久化调用慢

当使用过滤器时，spark会加载来自Kudu的所有数据吗？

火花过滤器操作顺序为O(1)或O(n)

用于大型csv文件的sparklyr

将一个dataframe列值传递给另一个dataframe筛选条件表达式+Spark1.5

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐