如何在Spark SQL上处理AnalysisException？ - 腾讯云开发者社区

随着Spark SQL和Apache Spark effort（HIVE-7292）上新Hive的引入，我们被问到了很多关于我们在这两个项目中的地位以及它们与Shark的关系。...从Shark到Spark SQL Shark构建在Hive代码库上，并通过交换Hive的物理执行引擎部分来实现性能提升。...正是由于这个原因，我们正在结束Shark作为一个单独的项目的开发，并将所有的开发资源移动到Spark的一个新组件Spark SQL上。...对于Spark用户，Spark SQL成为操纵（半）结构化数据的力量，以及从提供结构的源（如JSON，Parquet，Hive或EDW）中提取数据。...总之，我们坚信Spark SQL不仅是SQL的未来，而且还是在Spark上的结构化数据处理的未来。我们会努力工作，将在接下来的几个版本中为您带来更多体验。

1.4K2 0

org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;

恭喜老铁，跟我遇到了一样的问题，接下来是解决方法：遇到的问题： org.apache.spark.sql.AnalysisException: Table or view not found: `traintext...:67) at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:128) at org.apache.spark.sql.catalyst.trees.TreeNode...:67) at org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:57) at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed...(QueryExecution.scala:48) at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:63) at org.apache.spark.sql.SparkSession.sql...去集群服务器上：find -name hive-site.xml 找到之后拷贝到项目的资源文件下面就可以了，打包的时候在项目的根目录下，会自动加载jar根目录下的hive-site.xml 为什么要添加

6K0 0

您找到你想要的搜索结果了吗？

是的

没有找到

如何在HUE上使用Spark Notebook

来连接的Spark，Spark依赖于Hive，配置如下图所示： ?...默认值： false enable_query_scheduling：启用当前 SQL 查询 Coordinator 创建的标记。...默认值： false enable_query_builder：启用表帮助 SQL 查询生成器的标记。...二、修改Spark配置打开ambari页面，集群安装的是Spark2服务，所以进入Spark2配置；配置选项中选择高级livy2-conf，如下图所示： ?...三、新建Spark Notebook Spark分很多种语言，有pySpark、Scala、Spark SQL等。本章以pySpark为例，来介绍如何使用Spark Notebook。

3.9K3 1

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情...大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性： 1.Spark SQL写Hive或者直接写入HDFS，过多的小文件会对NameNode内存管理等产生巨大的压力，会影响整个集群的稳定运行...此外，Spark在处理任务时，一个分区分配一个task进行处理，多个分区并行处理，虽然并行处理能够提高处理效率，但不是意味着task数越多越好。如果数据量不大，过多的task运行反而会影响效率。...同样的这种机制也可以套用到Spark SQL中的DataSet上，那么就很好解释了tmp的分区数为什么等于t1和t2的分区数的和。...最后，Spark中一个task处理一个分区从而也会影响最终生成的文件数。当然上述只是以Spark SQL中的一个场景阐述了小文件产生过多的原因之一（分区数过多）。

2.7K2 0

使用Spark SQL 构建流式处理程序

StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化前言今天介绍利用 StreamingPro 构建流式(Spark Streaming)计算程序准备工作...启动StreamingPro Local模式： cd $SPARK_HOME ....UI 集群模式： cd $SPARK_HOME ....streaming.name test \ -streaming.job.file.path hdfs://cluster/tmp/test.json 这里需要注意的是，配置文件如果放到HDFS上，...这是一个标准的Spark 流式处理程序

4254 0

使用Spark SQL构建批处理程序

StreamingPro目前已经涵盖流式/批处理，以及交互查询三个领域，实现配置和SQL化前言今天介绍利用 StreamingPro 完成批处理的流程。...gist 在批处理模式下，所有的数据源和输出都各自有一个固定的模块(使用了Spark的Datasource API),然后对模块做配置即可，无需使用不同的模块。...在这个示例里，你需要配置上ES集群作为输入，配置hdfs作为输出，从而完成运行。启动StreamingPro Local模式： cd $SPARK_HOME ....\ -streaming.job.file.path hdfs://cluster/tmp/test.json 这里需要注意的是，配置文件并蓄放到HDFS上，并且需要协商hdfs前缀。...这是一个标准的Spark 批处理程序

5343 0

如何避免spark dataframe的JOIN操作之后产生重复列（Reference *** is ambiguous问题解决）

spark datafrme提供了强大的JOIN操作。但是在操作的时候，经常发现会碰到重复列的问题。...如下：如分别创建两个DF，其结果如下： val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B", 2), ("two", "A...one| B| 2|null|null| null| +----+----+-----+----+----+------+ 假如这两个字段同时存在，那么就会报错，如下：org.apache.spark.sql.AnalysisException...: Reference 'key2' is ambiguous 因此，网上有很多关于如何在JOIN之后删除列的，后来经过仔细查找，才发现通过修改JOIN的表达式，完全可以避免这个问题。

2.7K6 0

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

>> 问题1 使用SparkSQL（2.4版本）往存储格式为parquet的Hive分区表中存储NullType类型的数据时报错： org.apache.spark.sql.AnalysisException...问题现象在利用Spark和Kafka处理数据时，同时在maven pom中引入Spark和Kafka的相关依赖。... >> 问题3 通过SparkSQL，对两个存在map类型字段的Hive表进行union操作，报如下错误： org.apache.spark.sql.AnalysisException..., str_to_map("k1:v1,k2:v2") map union select 2 id, map("k1","v1","k2","v2") map 2）报错信息 org.apache.spark.sql.AnalysisException...问题分析根据报错信息，我们查看org.apache.spark.sql.catalyst.analysis.CheckAnalysis的checkAnalysis方法，第362行源码处理逻辑（错误信息是不是很熟悉呢

2.8K3 0

大数据开发：Spark SQL数据处理模块

Spark SQL作为Spark当中的结构化数据处理模块，在数据价值挖掘的环节上，备受重用。自Spark SQL出现之后，坊间甚至时有传言，Spark SQL将取代Hive，足见业内对其的推崇。...今天的大数据开发学习分享，我们就来讲讲Spark SQL数据处理模块。...Spark SQL原理及组成 Catalyst 优化：优化处理查询语句的整个过程，包括解析、绑定、优化、物理计划等，主要由关系代数（relation algebra）、表达式（expression）以及查询优化...Spark SQL 内核：处理数据的输入输出，从不同数据源（结构化数据 Parquet 文件 JSON 文件、Hive 表、外部数据库、已有 RDD）获取数据，执行查询（expression of queries...关于大数据开发学习，Spark SQL数据处理模块，以上就为大家做了简单的介绍了。Spark框架在大数据生态当中的重要地位，决定了我们在学习当中也应当付出相应程度的努力，由浅入深，逐步深入。

8392 0

0827-7.1.4-如何在CDP中使用Spark SQL CLI

而我们在产品开发过程中，可能需要用到spark-sql来进行数据加工，本文就采用脚本的方式，调用spark-shell来进行数据的处理，执行需要的sql语句。...3.单点问题，所有Spark SQL查询都走唯一一个Spark Thrift节点上的同一个Spark Driver，任何故障都会导致这个唯一的Spark Thrift节点上的所有作业失败，从而需要重启Spark...因为以上限制，主要是安全性上的（即上面描述的第一和第二点），所以CDH的企业版在打包Spark的时候将Spark Thrift服务并没有打包。...其实，所谓的Kyuubi只是在类似HiveSever2的基础上提供服务，提供SparkSQL服务，而不是Hive SQL服务。...由于我们在此基础上增加了多租户的功能，因此可以支持网易内部各业务线的使用。

1.6K1 0

Spark 如何使用DataSets

我们通过引入 DataFrames 和 Spark SQL 继续推动 Spark 的可用性和性能。...这些是用于处理结构化数据（例如数据库表，JSON文件）的高级API，这些 API 可让 Spark 自动优化存储和计算。...虽然这个高层次代码在语法上看起来类似，但使用 Datasets，你也可以访问完整关系执行引擎的所有功能。...Spark内置支持自动生成原始类型（如String，Integer，Long），Scala Case 类和 Java Beans 的 Encoder。 3....University(numStudents: Byte) val schools = sqlContext.read.json("/schools.json").as[University] org.apache.spark.sql.AnalysisException

3.1K3 0

如何在HUE上通过oozie调用Spark工作流

下载完成之后，访问workflow编辑器，会看到spark的程序示例。在这对该示例如何执行进行讲解。如下两图所示： ? ?...二、业务场景通过启动Spark Java程序复制文件到HDFS文件系统中。三、上传jar包点击spark示例程序，点击“工作区”，如下图所示： ?...-91/spark/lib/* /user/hue/oozie/workspaces/workflows/spark-scala/lib/ 执行结果如图所示： ?...七、总结在HUE上通过oozie调用Spark工作流：本篇文章是使用的HUE官方自带的Spark示例，我们需要提前下载。...上传Spark相关jar包到该Spark Workflow的工作区检查Workflow配置选择输入输出参数，执行Workflow

2.7K2 0

Structured Streaming如何实现Parquet存储目录按时间分区

里并被外部使用： package org.apache.spark.sql.execution.streaming.newfile import org.apache.spark.sql....{AnalysisException, SQLContext} import org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat...import org.apache.spark.sql.execution.streaming....Sink import org.apache.spark.sql.sources.StreamSinkProvider import org.apache.spark.sql.streaming.OutputMode...= OutputMode.Append) { throw new AnalysisException( s"Data source ${getClass.getCanonicalName

9701 0

Spark SQL实战(07)-Data Sources

split(",") (splits(0).trim, splits(1).trim) }) 编译无问题，运行时报错： Exception in thread "main" org.apache.spark.sql.AnalysisException...split(",") splits(0).trim }) result.write.text("out") 继续报错： Exception in thread "main" org.apache.spark.sql.AnalysisException...中的 mode SaveMode Spark SQL中，使用DataFrame或Dataset的write方法将数据写入外部存储系统时，使用“SaveMode”参数指定如何处理已存在的数据。...Parquet可与许多不同计算框架一起使用，如Hadoop、Spark、Hive等，广泛用于各种大数据应用程序。 6.3 优点高性能、节省存储空间、支持多种编程语言和数据类型、易于集成和扩展等。...处理，肯定要通过Spark读出MySQL的数据。

9364 0

SparkSQL操作外部数据源

parquet数据 hive表数据 mysql表数据 hive与mysql结合 1.处理parquet数据启动spark-shell: spark-shell --master local[2] -...//home/hadoop/app/xxx.parquet"//处理的parquet文件的路径 val userDF = spark.read.format("parquet").load(path)...image.png 比如，下面这样，使用load方法处理一个parquet文件，不指定文件形式： val userDF = spark.read.load("file:///home/hadoop...模式下， spark.sql("show tables").show //显示表 spark.table("emp").show //显示emp表的数据 spark.sql("select empno...1) from emp group by empno").filter("empno is not null").write.saveAsTable("emp_1") 报错： org.apache.spark.sql.AnalysisException

1.2K8 0

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。...的ThriftServer服务，在部署节点上启动Spark ThriftServer服务。.../cloudera/parcels/CDH/lib/spark/bin/spark-sql spark-sql> select current_user(); （可左右滑动） ?...执行SQL操作 spark-sql> select * from test; spark-sql> select name from test; spark-sql> select * t1; spark-sql...4.权限分析及解决 ---- 由于CDH集群启用了Kerberos和Sentry，Fayson在前面的文章《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》和《如何在CDH启用Kerberos

3.3K2 0

【Spark研究】用Apache Spark进行大数据处理第二部分：Spark SQL

Spark SQL，作为Apache Spark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。...通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。...数据源（Data Sources）：随着数据源API的增加，Spark SQL可以便捷地处理以多种不同格式存储的结构化数据，如Parquet，JSON以及Apache Avro库。...Spark SQL示例应用在上一篇文章中，我们学习了如何在本地环境中安装Spark框架，如何启动Spark框架并用Spark Scala Shell与其交互。...Spark SQL是一个功能强大的库，组织中的非技术团队成员，如业务分析师和数据分析师，都可以用Spark SQL执行数据分析。

3.3K10 0

【DataMagic】如何在万亿级别规模的数据量上使用Spark

1．理解Spark术语对于入门，学习Spark可以通过其架构图，快速了解其关键术语，掌握了关键术语，对Spark基本上就有认识了，分别是结构术语Shuffle、Patitions、MapReduce、...对于Spark-sql，则设置spark.sql.shuffle.partitions、num-executor和executor-cores。...首先，Spark的目录结构如图3-1所示，可以通过文件夹，快速知道sql、graphx等代码所在位置，而Spark的运行环境主要由jar包支撑，如图3-2所示，这里截取部分jar包，实际上远比这多，所有的...如为了支持业务高并发、高实时性查询的需求下，Spark在数据出库方式上，支持了Cmongo的出库方式。...代码问题，写的Sql有语法问题，或者Spark代码有问题。 b. Spark问题，旧Spark版本处理NULL值等。 c. 任务长时间Running状态，则可能是数据倾斜问题。 d.

2.3K8 0

Spark Java UDAF 输入struct嵌套结构

因此本文主要解决在实际开发过程中，遇到的2种问题：混用Type-Safe和Untyped类型，导致出错反序列化Entity时，字段对应不上的问题以下逐一进行描述说明。...; import org.apache.spark.sql.Encoders; import org.apache.spark.sql.expressions.Aggregator; import java.util.Map...valueContainsNull = true) 常见问题反序列化成bean对象时，如果不拆分出address struct的各子字段city、street，则会出现下面的错误： org.apache.spark.sql.AnalysisException...("select AddressAnaliseUdaf(address) from study"); 报错信息如下： Caused by: org.apache.spark.sql.AnalysisException...string | | |-- value: integer (valueContainsNull = true) 测试修改字段名: 可以修改字段名 Dataset sqlRow = spark.sql

2.1K6 0

如何在 Windows 上安装 SQL Server，保姆级教程来了！

前言SQL Server 是微软提供的关系型数据库管理系统，广泛用于企业级应用程序和数据管理。本文将详细介绍在 Windows 操作系统上安装 SQL Server 的步骤。...步骤一：下载 SQL Server 安装程序在安装之前，首先需要下载安装程序，访问官方网站下载 SQL Server 的安装程序。...Server等待一下之后，进入新页面，选择Developer版本（默认不用调整）默认下一步接受许可条款Microsoft更新勾选上忽略警告，直接下一步适用于SQL Server的Azure这个需要取消...，如下图：在实例功能中只需勾选如图所示内容：注：不要勾选Analysis Services其中，这一步里有个实例目录，建议在下载SQL Server的文件夹中新建三个文件，然后放里面，因为默认的是C盘...server的安装步骤，希望本文能够帮到大家，下一篇文章将介绍安装SQL Server自带的管理工具SSMS的安装。

1.7K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来

org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;

如何在HUE上使用Spark Notebook

Spark SQL 小文件问题处理

使用Spark SQL 构建流式处理程序

使用Spark SQL构建批处理程序

如何避免spark dataframe的JOIN操作之后产生重复列（Reference *** is ambiguous问题解决）

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

大数据开发：Spark SQL数据处理模块

0827-7.1.4-如何在CDP中使用Spark SQL CLI

Spark 如何使用DataSets

如何在HUE上通过oozie调用Spark工作流

Structured Streaming如何实现Parquet存储目录按时间分区

Spark SQL实战(07)-Data Sources

SparkSQL操作外部数据源

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

【Spark研究】用Apache Spark进行大数据处理第二部分：Spark SQL

【DataMagic】如何在万亿级别规模的数据量上使用Spark

Spark Java UDAF 输入struct嵌套结构

如何在 Windows 上安装 SQL Server，保姆级教程来了！

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐