使用Hive / Spark SQL在URL中进行字符串匹配

Hive和Spark SQL是两种常用的大数据处理工具，它们可以在URL中进行字符串匹配操作。

字符串匹配是一种常见的数据处理需求，可以用于筛选、过滤和提取符合特定模式的URL。Hive和Spark SQL提供了一些函数和语法来实现这个目标。

在Hive中，可以使用LIKE和RLIKE关键字来进行字符串匹配。LIKE关键字支持通配符匹配，可以使用%表示任意字符序列，使用_表示任意单个字符。例如，使用LIKE关键字进行URL匹配的示例语句如下：

SELECT * FROM table_name WHERE url_column LIKE '%keyword%';

RLIKE关键字支持正则表达式匹配，可以更加灵活地定义匹配规则。例如，使用RLIKE关键字进行URL匹配的示例语句如下：

SELECT * FROM table_name WHERE url_column RLIKE 'pattern';

在Spark SQL中，可以使用SQL语法中的LIKE和RLIKE关键字进行字符串匹配。使用方法与Hive类似。例如，在Spark SQL中使用LIKE关键字进行URL匹配的示例语句如下：

SELECT * FROM table_name WHERE url_column LIKE '%keyword%';

在实际应用中，Hive和Spark SQL可以与其他工具和技术结合使用，例如Hadoop、HDFS、HBase等，以实现更复杂的大数据处理任务。

腾讯云提供了一系列与大数据处理相关的产品和服务，可以帮助用户快速搭建和管理大数据处理平台。其中，推荐的产品包括腾讯云数据仓库（TencentDB for TDSQL）、腾讯云数据湖（TencentDB for TDL）、腾讯云数据计算（TencentDB for TDC）、腾讯云数据集市（TencentDB for TDSM）等。您可以通过访问腾讯云官网了解更多产品详情和使用指南。

参考链接：

如何在Spark Sql中替换字符串中包含“$”的模式

、、

我有一个字符串"$urlhjkj“，我希望将它的"$url”部分替换为"ssss“尝试以下操作，但不起作用： spark.sql(s"""select regexp_replace("$$urlhjkj","$$url","ssss") """).first(){0} 我甚至试过： spark.sql(s"""select regexp_replace("$$urlhjkj","\\u0024url","sss

浏览 0提问于2018-10-22得票数 0

1回答

另存为配置单元中的表:失败，并出现异常:必须至少为表指定一列

、

我有一个简单的spark作业，它从文件中拆分单词并加载到hive中的表中。 public static void wordCountJava7() { // Define a configuration to use to interact with Spark SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("Work Count App"); SparkContext sc = new SparkContext(conf); // Crea

浏览 1提问于2016-04-29得票数 1

1回答

由于org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions :java.lang.NoSuchMethodException，Spark作业失败

、、

由于以下错误，我在通过spark-submit运行spark作业时遇到问题： 16/11/16 11:41:12 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions(org.apache.hadoop.fs.Path, java.lang.String, java.util.Map, boolean, int, boolean, boolean

浏览 6提问于2016-11-17得票数 0

3回答

对hive表中的大型数据集执行Spark select查询失败

、、、、

我的以下代码是使用spark从hive表中读取数据。该表中有1亿条记录。当我在Rdd中选择这么多记录并尝试执行result.show()时，它给出了严重的问题异常。我基本上是想通过从这个表中选择几列来插入其他表中的记录，以获得1亿条记录集。下面是我的代码： import org.apache.spark.sql.functions._ import org.apache.spark.sql._ val sqlContext = new org.apache.spark.sql.SQLContext(sc) val hiveContext = new org.apache.spark.sql

浏览 0提问于2017-11-07得票数 1

1回答

使用hudi创建外部表配置单元的问题

、、、

我正在尝试使用apache hudi框架在hive metastore中创建一个外部文件。它能够与hive metastore连接，但在尝试创建表时，在连接后抛出异常。 dataFrame.writeStream .format("org.apache.hudi") .option(HoodieWriteConfig.TABLE_NAME, tableName) .option(DataSourceWriteOptions.HIVE_TABLE_OPT_KEY,tableName) .option(DataSourceWriteO

浏览 57提问于2021-03-19得票数 0

1回答

Spark 1.5.1不使用hive jdbc 1.2.0

、

我试图在独立模式下使用spark 1.5.1和Hive1.2.0JDBC版本来执行hive查询。这是我的代码： private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String HIVE_CONNECTION_URL = "jdbc:hive2://localhost:10000/idw"; private static final SparkConf sparkconf = new SparkConf().set(&

浏览 0提问于2015-12-03得票数 2

回答已采纳

1回答

将数据插入到单元外部表中，创建非常小的部件文件

、、、、

除了重新分区(这减慢了处理速度)，还有其他方法将所有1mb文件合并成多个大文件吗？在500 on的数据上运行spark代码，在100个执行器上运行24个核，但将它们保存到包含128 on的大型文件中。现在，它正在保存每个文件1MB。 spark.sql("set pyspark.hadoop.hive.exec.dynamic.partition=true") spark.sql("set pyspark.hadoop.hive.exec.dynamic.partition.mode=nonstrict") spark.sql("set hive.

浏览 0提问于2019-06-27得票数 2

回答已采纳

1回答

Apache :我如何理解和控制我的查询是在Hive引擎上还是在Spark引擎上执行的？

、

我正在运行本地的spark 2.4.0实例我想要执行SQL查询和Hive。以前，在Spark1.x.x.中，我使用了HiveContext： import org.apache.spark.sql.hive.HiveContext val hc = new org.apache.spark.sql.hive.HiveContext(sc) val hivequery = hc.sql(“show databases”) 但是现在我看到HiveContext被废弃了：。在HiveContext.sql()代码中，我看到它现在只是SparkSession.sql()上的一个包装器。建议是在en

浏览 1提问于2021-03-18得票数 0

2回答

创建具有可变函数的新列

、、

如果这种问题不能用火花解决的话，我很惊讶： iris_tbl <- copy_to(sc, aDataFrame) # date_vector is a character vector of element # in this format: YYYY-MM-DD (year, month, day) for (d in date_vector) { ... aDataFrame %>% mutate(newValue=gsub("-","",d))) ... } 我收到这个错误： Error: org.apache.spark

浏览 4提问于2016-10-27得票数 3

回答已采纳

1回答

使用Spark访问Hive表

、、、

我已经设置了一个AWS EMR集群，其中包括spark 2.3.2、hive 2.3.3和hbase 1.4.7。如何配置spark来访问蜂巢表？我已经执行了以下步骤，但是结果是错误消息： java.lang.ClassNotFoundException: java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning当使用类路径创建Hive客户端时：请确保您的hive和hadoop版本的jars包含在传递给spark.sql.hive.metastore.jars的路径中。步骤： cp /us

浏览 2提问于2019-05-02得票数 0

4回答

为什么火花壳会失败，因为“HDFS上的根划痕dir: /tmp/hive应该是可写的”？

、、

我是一个火花新手，并使用windows 10，试图让火花工作。我正确地设置了环境变量，我还设置了winutils。当我进入spark/bin并键入spark-shell时，它会运行spark，但是它会给出以下错误。此外，它也没有显示火花上下文或火花会话。 C:\Users\Akshay\Downloads\spark\bin>spark-shell 17/06/19 23:45:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-jav

浏览 7提问于2017-06-20得票数 6

回答已采纳

3回答

读取spark/Scala中的配置文件时，找不到密钥的配置

、

您好，我正在尝试从我的spark/scala配置文件中读取配置。我写了下面的代码。 val conf = com.typesafe.config.ConfigFactory.load(args(0)) var url=conf.getString("parameters.spark-hive.url") var db=conf.getString("parameters.spark-hive.dbname") val sparksession = SparkSession.builder() .appName("myapp") .con

浏览 1提问于2020-04-06得票数 1

1回答

无法实例化提供程序org.apache.spark.sql.hive.orc.DefaultSource

、

我有一个简单的spark任务，从Hive读取数据，从db2读取一些数据，进行一些计算并将结果放入db2中。在我尝试从db2读取数据的代码行中，我看到以下错误： Exception in thread "main" java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.hive.orc.DefaultSource could not be instantiated at java.util.Service

浏览 0提问于2018-11-16得票数 0

2回答

星星之火服务器-无法启动(蜂巢错误)

、、、

我正试图用Hive0.14(最新的HortonWorks发行版)在HDP 2.2.0上启动SparkTh开裂服务器(Spark1.2)，但不幸的是，我得到了一个对我来说非常神秘的错误： Exception in thread "main" java.lang.RuntimeException: java.lang.NumberFormatException: For input string: "5s" at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.jav

浏览 3提问于2015-02-02得票数 1

回答已采纳

1回答

在spark dataset中连接两个聚集表似乎以完全混洗结束

、、

我有两个配置单元聚集表t1和t2 CREATE EXTERNAL TABLE `t1`( `t1_req_id` string, ... PARTITIONED BY (`t1_stats_date` string) CLUSTERED BY (t1_req_id) INTO 1000 BUCKETS // t2 looks similar with same amount of buckets 插入部分发生在配置单元中 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstri

浏览 10提问于2020-05-12得票数 2

2回答

如何使用spark/scala +代码+配置通过远程单元存储( s3 orc)加载闪烁s3中的文件

、、、、

intellij(星火)--> Hive (远程)--存储在S3(orc格式)上，无法通过spark/scala读取远程Hive表。能够读取表架构，但不能读取表。线程"main“中的错误-Exception :java.lang.IllegalArgumentException访问密钥ID和秘密访问密钥必须分别指定为s3 URL的用户名或密码，或者通过设置fs.s3.awsAccessKeyId或fs.s3.awscessAccessKey属性(分别)。 import org.apache.spark.SparkConf import org.apache.spark

浏览 0提问于2018-04-13得票数 2

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

、、、

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。如果你想要更多的细节，请评论。 %spark import org.apache.spark.sql.SparkSession val spark = (SparkSession .builder .appName("interfacing spark sql to hive metastore without configuration

浏览 2提问于2018-11-15得票数 1

回答已采纳

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

1回答

从HDinsight集群访问蜂巢表

、、、、

我正在使用火花放电来访问我的HDinsight集群中的蜂箱。当我去查询蜂箱时，它会显示所有的数据库，但是当我从spark查询时，它只显示默认的数据库。我相信它只是去查询星火目录在默认情况下。我发现的解决办法是，我应该使用Hive仓库连接器连接到spark中的蜂巢。还有别的办法吗？码 spark = SparkSession \ .builder \ .appName("Python Spark SQL Hive integration example") \ .config("hive.metastore.uris", "

浏览 6提问于2021-08-20得票数 1

3回答

如何在齐柏林飞艇中加载hiveContext？

、

我是齐柏林飞艇笔记本的新手。但我注意到一件事，与spark-shell不同，当我启动笔记本时，hiveContext并不是在齐柏林飞艇中自动创建的。当我尝试在齐柏林飞艇中手动加载hiveContext时： import org.apache.spark.sql.hive._ import org.apache.spark.sql.hive.HiveContext val hiveContext = new HiveContext(sc) 我得到了这个错误 java.lang.RuntimeException: java.lang.RuntimeException: Unable to in

浏览 0提问于2017-08-02得票数 3

1回答

Datastax :所有尝试查询的主机都失败(没有主机试过)

、

我们有8个节点datastax集群，当我们开始节约服务器时，我们让所有主机尝试查询失败(没有主机试过)。 ERROR 2017-12-30 21:16:16,317 org.apache.spark.deploy.DseSparkSubmitBootstrapper: Failed to start or submit Spark application java.lang.RuntimeException: com.datastax.bdp.fs.model.InternalServerException: com.datastax.driver.core.exceptions.NoHost

浏览 2提问于2017-12-30得票数 1

1回答

从PySpark查询远程配置单元元存储区

、、

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。如果可能的话，我想把所有的东西都放在python环境中。有什么想法吗？ from pyspark.sql import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{jdbcPort}/{jdbcDatabase}" driver = "org.apache.hive.jdbc.HiveDriver" # initialize spark = SparkS

浏览 14提问于2020-09-28得票数 0

2回答

用Oracle表创建SparkSQL jdbc联邦失败时出现了奇怪的错误

、、、

我正在尝试创建hive表，它将指向oracle表，但是它在org.apache.spark.sql.AnalysisException中失败了。步骤：重建spark with hive, hive-thrift支持将oracle-db-connector.jar放在类路径中设置thrift server 使用beeline连接到它 beeline> !connect jdbc:hive2://localhost:10100 Connecting to jdbc:hive2://localhost:10100 创建hive table: CREATE TABLE oracle3_c

浏览 5提问于2016-09-20得票数 0

回答已采纳

1回答

enableHiveSupport在java火花代码中抛出错误

、、、

我有一个非常简单的应用程序，它试图使用spark从/src/main/resources读取orc文件。我一直在犯这个错误：无法用Hive支持实例化SparkSession，因为找不到Hive类。我尝试过添加依赖项 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.0.0</version> </dependency> 正如这里所建议的：

浏览 1提问于2017-07-17得票数 3

回答已采纳

1回答

Pyspark:在远程Hive Server中选择数据

、、、

尝试读取和写入存储在远程Hive Server中的数据。我遵循这个例子： from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row # warehouse_location points to the default location for managed databases and tables warehouse_location = 'hdfs://quickstart.cloudera:8020/user/hi

浏览 0提问于2017-09-04得票数 0

回答已采纳

2回答

将数据保存到蜂巢中的ArrayIndexOutOfBoundsException

、、

在使用下面的API代码将数据存储到一个单元表时，我遇到了问题。 df.write.mode(SaveMode.Append).format("parquet").partitionBy("ord_deal_year", "ord_deal_month", "ord_deal_day").insertInto(tableName) 我的Dataframe大约有48列。其中Hive表有90列。当我试图保存Dataframe时，我会收到以下错误： 12:56:11 Executor task launch worker-0 ERROR

浏览 0提问于2018-03-05得票数 0

回答已采纳

1回答

包单元中的对象HiveContext不能在包中访问。

、、

HI编码器，我又回来了。我正在尝试使用scala代码中的hive上下文从一个dataframe创建一个HIve表，我可以在sqlContext中这样做，但是当涉及到HiveContext时，它会抛出这个错误 [error] /home/mapr/avroProject/src/main/scala/AvroConsumer.scala:75: object HiveContext in package hive cannot be accessed in package org.apa che.spa

浏览 2提问于2016-12-21得票数 0

1回答

Scala将通过JDBC - HDP在配置单元中连接

、、

我正在尝试连接HIVE (在Hortonworks的沙箱中)，并收到以下消息：线程"main“java.sql.SQLException中出现异常:找不到适合jdbc:hive2://sandbox.hortonworks.com:10000/default的驱动程序 Maven依赖关系： <dependencies> <dependency> <groupId>org.apache.spark</groupId

浏览 2提问于2016-05-10得票数 1

2回答

从火花执行蜂巢查询

、

我正试图在火花壳中执行这段代码： val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("show tables") 执行第二行之后，我将得到一个异常： org.apache.hadoop.hive.ql.Driver.getResults(Ljava/util/ArrayList；：java.lang.NoSuchMethodError在org.apache.spark.sql.hive.HiveContext.runHive(HiveContext.scala:305)，

浏览 3提问于2015-01-07得票数 0

回答已采纳

1回答

无法将Spark Dataframe保存为HDP 3.0中的表

、、、

我有一个数据帧，我正试着将它保存为我的hive表。我已经尝试了所有可能的方法，但无法将其保存为HDP 3.0中的表。我正在使用下面的代码。 var sparksession = SparkSession.builder() .appName("appname") .config("hive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode", "nonstrict")

浏览 3提问于2020-05-17得票数 0

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。然后转到下一步，设置。通过使用hive / beeline，我还可以创建Hive表，加载数据，然后进行适当的选择。蜂箱在纱线/火花上正确地执行。我怎么知道它起作用了？hive外壳显示以下内容： hive> select sum(col1) from test_table; .... Query Hive on Spark job[0] stages: [0, 1] Spark job[0] status = RUNNING ---------------

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

皮斯卡尔:远程蜂巢仓库位置

、、、、

我需要读/写存储在远程Hive中的表。我只知道这个远程蜂巢是在码头下运行的。在Hadoop中，我为一个iris表找到了两个urls，我试图从中选择一些数据：我有一张桌子的亚稳态网址： http://xxx.yyy.net:8888/metastore/table/mytest/iris 和表格地址网址： hdfs://quickstart.cloudera:8020/user/hive/warehouse/mytest.db/iris 我不知道为什么最后一个url包含quickstart.cloudera:8020。也许这是因为蜂巢在码头下运行？在讨论如何访问Hive表时，Pyspark教

浏览 3提问于2017-09-05得票数 2

2回答

星火Sql -插入到外部蜂巢表错误

、、、

我试图通过spark将数据插入到外部单元表中。我的蜂箱桌子是通过一根柱子装的。创建外部单元表的查询如下 create external table tab1 ( col1 type,col2 type,col3 type) clustered by (col1,col2) sorted by (col1) into 8 buckets stored as parquet 现在，我尝试将数据从一个拼花文件(存储在hdfs中)存储到表中。这是我的密码 SparkSession session = SparkSession.builder().appName("ParquetRead

浏览 0提问于2018-10-04得票数 0

1回答

如何将火花放电连接到HiveThriftServer2？

、、

我正在尝试将我的spark应用程序与从start-thriftserver.sh启动的thriftserver连接起来，但我总是得到一个TTransportException。我正在使用Spark3.3.0。通过Beeline连接到服务器没有问题。我正试图通过使用命令发射火星雨来连接亚稳态。 pyspark \ --conf spark.hadoop.hive.metastore.uris=thrift://localhost:10000 \ --conf spark.sql.hive.metastore.jars=maven \ --conf spark.sql.hive.metastor

浏览 9提问于2022-10-25得票数 0

回答已采纳

5回答

Scala :无法导入sqlContext.implicits._

、、、

我尝试了下面的代码，无法导入sqlContext.implicits._ -它引发了一个错误(在Scala中)，无法构建代码：的值不是org.apache.spark.sql.SQLContext的成员我需要在pom.xml中添加依赖项吗？火花版本1.5.2 package com.Spark.ConnectToHadoop import org.apache.spark.SparkConf import org.apache.spark.SparkConf import org.apache.spark._ import org.apache.spark.sql._ impo

浏览 5提问于2016-01-18得票数 9

回答已采纳

1回答

SPARK :无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient

、、

我使用的是Hadoop 2.7.0、hive 1.1.0和spark 1.3.1。我的metastore数据库在mysql数据库中。我可以从hive shell创建和查看数据。 hive (dwhdb)> select * from dwhdb.test_sample; OK test_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_sal Eid1 EName1 EDept1 100.0 Eid2 EName2 EDept1 102.0 Eid3 EName3 EDept1 101.0

浏览 1提问于2015-05-20得票数 4

1回答

Spark JDBC with HIVE - Scala

、、、

我在HIVE中有一个示例表(Stuends1)，我想使用JDBC从Spark连接它(因为Hive在AWS中，而不是在同一个集群中)。我只是试着用下面的代码 def main(args: Array[String]): Unit = { //Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance() val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]") val sc = new Sp

浏览 25提问于2017-08-24得票数 3

1回答

CDH5.4.2火花可以在火花壳中使用HiveContent，但不能打开火花-sql

、、

我使用的是CDH5.4.2的火花(独立的) 在将hive-site.xml复制到$SPARK_HOME/conf之后，我可以从spark-shell中的hive查询，如下所示： org.apache.spark.sql.hive.HiveContext@6c6f3a15 scala> hiveContext =新的org.apache.spark.sql.hive.HiveContext(sc)；hiveContext: org.apache.spark.sql.hive.HiveContext = scala> hiveContext.sql(“显示表”).show()；

浏览 8提问于2016-07-26得票数 0

1回答

如何用火花读取蜂箱表

、、

我想看一下星火的蜂巢桌。蜂窝表数据以textFile的形式存储在/user/hive/warehouse/problem7.db中。我知道： val warehouseLocation = hdfs://localhost:9000/user/hive/warehouse // Create the Spark Conf and the Spark Session val conf = new SparkConf().setAppName("Spark Hive").setMaster("local[2]").set("spark.sql.wareho

浏览 0提问于2020-10-29得票数 0

回答已采纳

1回答

激发JDBC来读取和写入Hive

、、、

我正在尝试开发一个通用的实现来使用Spark来支持从各种符合JDBC的数据库(如PostgreSQL、MySQL、Hive等)读取/写入数据。我的代码如下所示。 val conf = new SparkConf().setAppName("Spark Hive JDBC").setMaster("local[*]") val sc = new SparkContext(conf) val spark = SparkSession .builder() .appName("Spark Hive JDBC Example") .ge

浏览 6提问于2019-11-12得票数 0

2回答

从表中动态获取空列计数

、、

我使用datastax + spark集成和spark SQL节俭服务器，这为我提供了一个Hive SQL接口来查询Cassandra中的表。我的数据库中的表是动态创建的，我想要做的是根据表名在表的每一列中获取空值的计数。我可以使用describe database.table获取列名，但是在hive中，如何在另一个select查询中使用它的输出，该查询为所有列计数为null。更新1: Dudu解决方案的回溯运行查询错误: TExecuteStatementResp(status=TStatus(errorCode=0，errorMessage="org.apache.spa

浏览 7提问于2017-06-16得票数 8

2回答

如何使用Spark2的SparkSession查询存储在Hive表中的数据？

、、、、

我正在尝试从Spark2查询存储在Hive表中的数据。环境: 1.cloudera-quickstart-vm-5.7.0-0-vmware 2. Eclipse with Scala2.11.8插件3. Spark2和Maven在我没有更改spark的默认配置。我需要在Spark或Hive中配置什么吗？代码 import org.apache.spark._ import org.apache.spark.sql.SparkSession object hiveTest { def main (args: Array[String]){ val sparkSession = Sp

浏览 0提问于2016-08-29得票数 2

2回答

如何避免AssertionError同时执行对Hive表的ORC格式的查询？

、、、、

我正在从PySpark运行一个简单的Hive查询，但是它会引发一个错误。这张表是ORC格式的。需要一些帮助。下面是代码 spark = SparkSession.builder.appName("Termination_Calls Snapshot").config("hive.exec.dynamic.partition", "true").config("hive.exec.dynamic.partition.mode", "nonstrict").enableHiveSupport().getOrCreate

浏览 9提问于2019-08-27得票数 1

回答已采纳

1回答

SparkR错误: HDFS上的根划痕dir: /tmp/hive应该是可写的

、、、、

我正在尝试初始化SparkR，但是我得到了一个权限错误。我的火花版本是火花-2.2.1-bin-hadoop2.6。我已经搜索了这个错误和如何解决它，我已经找到了几个相关的主题。但是，我无法使用与在这些主题中给出的解决方案(以及我尝试过的解决方案)相同的方法来解决这个问题，而是使用以下命令对/tmp/hive目录进行处理： sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive 有足够知识的人能给我另一个可能的解决方案吗？错误堆栈跟踪如下： $ sudo ./bin/sparkR R version 3.4.2 (2017-09-28) -- "

浏览 3提问于2017-12-19得票数 1

回答已采纳

2回答

如何在火花作业中使用HiveContext添加jar

、、、

我试图将json文件添加到JSON文件中，以便访问JSONSerDe数据，将JSON从spark作业加载到hive表中。我的代码如下所示： SparkConf sparkConf = new SparkConf().setAppName("KafkaStreamToHbase"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(10)

浏览 4提问于2016-06-14得票数 2

3回答

消息:Hive Schema版本1.2.0与亚西亚的模式2.1.0版本不匹配，Metastore没有升级或损坏

、

环境:火花2.11 hive2.2 hadoop2.8.2 蜂巢运行成功！没有任何错误和警告。但是当运行application.sh时，启动失败 /usr/local/spark/bin/spark-submit \ --class cn.spark.sql.Demo \ --num-executors 3 \ --driver-memory 512m \ --executor-memory 512m \ --executor-cores 3 \ --files /usr/local/hive/conf/hive-site.xml \ --driver-class-path /usr/loca

浏览 8提问于2017-11-28得票数 7

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

用AWS Glue Data Cataloug将星火DataFrame写入Hive表

、、、、

我在EMR上使用Spark2.4.0，并试图使用AWS数据目录在s3中存储简单的数据。守则如下： val peopleTable = spark.sql("select * from emrdb.testtableemr") val filtered = peopleTable.filter("name = 'Andrzej'") filtered.repartition(1).write.format("hive").mode("append").saveAsTable("emrdb.testtablee

浏览 1提问于2019-01-30得票数 5

2回答

无法在SparkSQL包中创建由dplyr.spark.hive支持的dplyr

、、、、

最近，我发现了一个很好的dplyr.spark.hive包，它支持使用spark或hive后端的dplyr前端操作。有关于如何在包的中安装此包的信息： options(repos = c("http://r.piccolboni.info", unlist(options("repos")))) install.packages("dplyr.spark.hive") 在已经连接到dplyr.spark.hive - 的情况下，还有许多关于如何使用的示例。但是我无法连接到hiveServer，所以我无法从这个强大的软件包中获益。我试过这样的

浏览 3提问于2015-12-14得票数 3

回答已采纳

3回答

Spark sql在HDP的配置单元中找不到表

、、

我使用HDP3.1，我添加了Spark2，蜂窝和其他需要的服务。我关闭了蜂巢中的ACID功能。spark作业在hive中找不到表。但是表存在于Hive中。异常如下: org.apache.spark.sql.AnalysisException:表或视图未找到在Spark的conf文件夹中有hive-site.xml。它由HDP自动创建。但它与配置单元的conf文件夹中的文件不同。从日志中，spark可以正确地获取hive的节约URI。我使用spark sql并在spark-shell中创建了一个hive表。我发现这个表是在spark.sql.warehouse.dir指定的文件夹中创建的。我将

浏览 0提问于2019-04-20得票数 0