首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark SQL,DataFrame以及 Datasets 编程指南 - For 2.0

这让你可以选择你熟悉的语言(现支持 Scala、Java、R、Python)以及在不同场景下选择不同的方式来进行计算。 SQL 一种使用 Spark SQL 的方式是使用 SQL。...Spark SQL 也支持从 Hive 中读取数据,如何配置将会在下文中介绍。使用编码方式来执行 SQL 将会返回一个 Dataset/DataFrame。...Parquet 格式 Parquet 是很多数据处理系统都支持的列存储格式,其相对于行存储具有以下优势: 可以跳过不符合条件的数据,只读取需要的数据,降低 IO 数据量 压缩编码可以降低磁盘存储空间。...由于同一列的数据类型是一样的,可以使用更高效的压缩编码进一步节省存储空间 只读取需要的列,支持向量运算,能够获取更好的扫描性能 Spark SQL 支持读写 Parquet 格式数据。...若设置为 true,Spark SQL 会根据每列的类型自动为每列选择一个压缩器进行数据压缩 spark.sql.inMemoryColumnarStorage.batchSize 10000 设置一次处理多少

4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

    Save Modes (保存模式) Save operations (保存操作)可以选择使用 SaveMode , 它指定如何处理现有数据如果存在的话.... 配置, 默认为 true .当禁用 type inference (类型推断)时, string type (字符串类型)将用于 partitioning columns (分区列)....当 scanned (扫描)的所有 columns (列)都是 partition columns (分区列)并且 query (查询)具有满足 distinct semantics (不同语义)的 aggregate...属性名称 默认 含义 spark.sql.inMemoryColumnarStorage.compressed true 当设置为 true 时,Spark SQL 将根据数据的统计信息为每个列自动选择一个压缩编解码器...它可以通过设置 spark.sql.parquet.mergeSchema 到 true 以重新启用。 字符串在 Python 列的 columns(列)现在支持使用点(.)来限定列或访问嵌套值。

    26.1K80

    PySpark UD(A)F 的高效使用

    2.PySpark Internals PySpark 实际上是用 Scala 编写的 Spark 核心的包装器。...这个底层的探索:只要避免Python UDF,PySpark 程序将大约与基于 Scala 的 Spark 程序一样快。如果无法避免 UDF,至少应该尝试使它们尽可能高效。...3.complex type 如果只是在Spark数据帧中使用简单的数据类型,一切都工作得很好,甚至如果激活了Arrow,一切都会非常快,但如何涉及复杂的数据类型,如MAP,ARRAY和STRUCT。...为了摆脱这种困境,本文将演示如何在没有太多麻烦的情况下绕过Arrow当前的限制。先看看pandas_udf提供了哪些特性,以及如何使用它。...): Pandas DataFrame columns ([str]): list of column names Returns: dataframe: new

    19.7K31

    DataFrame的真正含义正在被杀死,什么才是真正的DataFrame?

    拿 pandas 举例子,当创建了一个 DataFrame 后,无论行和列上数据都是有顺序的,因此,在行和列上都可以使用位置来选择数据。...从行上看,可以把 DataFrame 看做行标签到行的映射,且行之间保证顺序;从列上看,可以看做列类型到列标签到列的映射,同样,列间同样保证顺序。 行标签和列标签的存在,让选择数据时非常方便。...我们可以很容易选择一段时间(行上选择)和几列(列上选择)数据。当然这些建立在数据是按顺序存储的基础上。 按顺序存储的特性让 DataFrame 非常适合用来做统计方面的工作。...TraversableLike.scala:234) at scala.collection.immutable.List.foreach(List.scala:392) at scala.collection.TraversableLike...$class.map(TraversableLike.scala:234) at scala.collection.immutable.List.map(List.scala:296)

    2.5K30

    Spark数据工程|专题(1)——引入,安装,数据填充,异常处理等

    这里SDK选择的是jdk-8,也是它相对来说比较稳定的缘故,Spark的版本选择了2.4.0,则是考虑到公司的需求。 ? 所以现在你就创建好了一个项目,这个项目具有一个统一的层级架构。...然后我们可以创建一个scala的文件。 ? 这里要注意蓝色的框,如果不点scala文件夹,是看不到上面我选择的Scala Class这个选项的。...创建scala文件的时候,我们选择object,这一点和Java不太一样,但在这里,可以简单的认为它就是一种class。 ? 这些都准备好了,我们就可以开始写代码了! 2....Remark 8: 代码中用到的for (x columns)称作增强for循环,比较类似的用法是Python中的for i in list或者Java中的for(x: list)。...有的时候,需求上会希望保留新列,为了保证变化是正确的。 Request 7: 和之前类似,按平均值进行空值填充,并保留产生的新列。 那应该如何操作呢?

    6.5K40

    SparkSql官方文档中文翻译(java版本)

    下面是Scala和Java的几个操作示例: Scala val sc: SparkContext // An existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext...当前Spark SQL版本(Spark 1.5.2)不支持嵌套的JavaBeans和复杂数据类型(如:List、Array)。...然后Spark SQL在执行查询任务时,只需扫描必需的列,从而以减少扫描数据量、提高性能。通过缓存数据,Spark SQL还可以自动调节压缩,从而达到最小化内存使用率和降低GC压力的目的。...Esoteric Hive Features UNION type Unique join Column statistics collecting:当期Spark SQL不智齿列信息统计,只支持填充Hive...块级别位图索引和虚拟列(用于建立索引) 自动检测joins和groupbys的reducer数量:当前Spark SQL中需要使用“ SET spark.sql.shuffle.partitions=[

    9.1K30

    【工具】深入对比数据科学工具箱:Python和R之争

    从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R >> Python >> Scala 在实际工作中,对于小数据集的简单分析来说,使用EXCEL绝对是最佳选择。...在确定工程实施和大数据集操作时,我们就需要依赖 Scala 的静态类型等工程方法构建完整的数据分析系统。...而 Python 则包含更丰富的数据结构来实现数据更精准的访问和内存控制,多维数组(可读写、有序)、元组(只读、有序)、集合(唯一、无序)、字典(Key-Value)等等。...绘制聚类效果图 这里以K-means为例,为了方便聚类,我们将非数值型或者有确实数据的列排除在外。...来处理大数据,然后喂给spark和hadoop进行进一步的分布式处理。

    1.4K40

    数据源Parquet之使用编程方式加载数据

    1、可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。 2、压缩编码可以降低磁盘存储空间。...由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。...3、只读取需要的列,支持向量运算,能够获取更好的扫描性能。 这里讲解Parquet数据源的第一个知识点,使用编程的方式加载Parquet文件中的数据。 案例:查询用户数据中的用户姓名。...userNamesDF = sqlContext.sql("select name from users"); // 对查询出来的DataFrame进行transformation操作,处理数据,然后打印出来 List...​​​} ​​}).collect(); for(String userName : userNames) { ​​​System.out.println(userName); ​​} ​} } Scala

    30320

    深入理解Spark 2.1 Core (一):RDD的原理与源码分析

    由于惰性执行,当进行action操作的时候,才会回溯去执行前面的转换操作))。 RDD不需要物化。...Spark编程接口 Spark用Scala[5]语言实现了RDD的API。Scala是一种基于JVM的静态类型、函数式、面向对象的语言。...我们选择Scala是因为它简洁(特别适合交互式使用)、有效(因为是静态类型)。但是,RDD抽象并不局限于函数式语言,也可以使用其他语言来实现RDD,比如像Hadoop[2]那样用类表示用户函数。...如何通过Scala解释器来使用Spark还需要更多工作,这点我们将在第6部分讨论。不管怎样,我们都不需要修改Scala编译器。...3.1 Spark中的RDD操作 表2列出了Spark中的RDD转换和动作。每个操作都给出了标识,其中方括号表示类型参数。

    77970

    如何管理Spark的分区

    当我们使用Spark加载数据源并进行一些列转换时,Spark会将数据拆分为多个分区Partition,并在分区上并行执行计算。...所以理解Spark是如何对数据进行分区的以及何时需要手动调整Spark的分区,可以帮助我们提升Spark程序的运行效率。 什么是分区 关于什么是分区,其实没有什么神秘的。...我们可以通过创建一个DataFrame来说明如何对数据进行分区: scala> val x = (1 to 10).toList x: List[Int] = List(1, 2, 3, 4, 5, 6...我们可以使用下面的示例来探究如何使用特定的列对DataFrame进行重新分区。...上文提到:默认情况下,控制shuffle分区数的参数spark.sql.shuffle.partitions值为200,这将导致以下问题 对于较小的数据,200是一个过大的选择,由于调度开销,通常会导致处理速度变慢

    2K10

    第四范式OpenMLDB: 拓展Spark源码实现高性能Join

    但在拓展性上仍有改进空间,尤其针对机器学习计算场景的需求虽能满足但不高效,本文以LastJoin为例介绍OpenMLDB如何通过拓展Spark源码来实现数倍甚至数十倍性能提升。...基于Spark算子实现LastJoin的思路是首先对左表添加索引列,然后使用标准LeftOuterJoin,最后对拼接结果进行reduce和去掉索引行,虽然可以实现LastJoin语义但性能还是有很大瓶颈...Java源码字符串进行JIT的过程,而且根据不同的输入表数据量,Spark内部会适时选择BrocastHashJoin、SortMergeJoin或ShuffleHashJoin来实现,普通用户无法用RDD...源码中,还有一些语法检查类和优化器类都会检查内部支持的join type,因此在Analyzer.scala、Optimizer.scala、basicLogicalOperators.scala、SparkStrategies.scala...// the output list looks like: join keys, columns from left, columns from right val projectList = joinType

    1.1K20
    领券