将变量传递给pyspark sql中的配置单元查询

、、、、

我有下面的SparkSQL (Spark pool -Spark3.0)代码，我想传递一个变量给它。我该怎么做呢？我尝试了以下几种方法：%%pysparkselect * from silver.employee_dim

浏览 23提问于2021-06-02得票数 0

1回答

、、

我正在尝试使用spark sql对hive表执行查询。spark=SparkSession.builder.master("local[1]".enableHiveSupport().appName("test").getOrCreate() df=spark.sql("select * from table_name where date='2021-05-16' and name='xxxx'") 但我希望将日期和名称作

浏览 22提问于2021-09-17得票数 0

回答已采纳

1回答

在shell oozie操作中读取python脚本中的hive表

、、、

我在一个oozie shell操作中运行了以下python脚本shell_csv.sh： #!subprocess.PIPE, stderr=subprocess.PIPE).communicate() 它可以很好地处理"csv_1“文件，但现在不是读取"csv_1”文件，而是直接从从中导出"csv_1“文件的配置单元表中读取工作流在Hadoop服务器中运行，配置单元表存储在HDF目录中。有人知道怎么做

浏览 28提问于2021-08-06得票数 0

1回答

实例化'org.apache.spark.sql.hive.HiveExternalCatalog‘时出错

、

我无法从Pyspark运行配置单元查询。我尝试将hive-site.xml复制到spark的conf中，但还是抛出了同样的错误完全错误 Traceback (most recent call last): File "/usr/local/spark-2.4.0/python&#x

浏览 202提问于2020-04-07得票数 2

1回答

无法在pyspark中导入parse_url

、、

对于pyspark中的hiveql，我有以下sql查询：我想翻译成函数式查询，比如： df.select(split(parse_url(col('page.viewed_page'), 'HOST&

浏览 25提问于2019-11-07得票数 3

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

SparkSql从配置单元表中获取浮点类型字段值null

、、

我使用sqoop创建和导入hive表，并使用pyspark获取数据。该表由一个字符串字段、一个整型字段和多个浮点型字段组成。我可以通过hue hive sql查询获得整个数据。但是，当我使用pyspark sql编程时，可以显示非浮点型字段，而浮点型字段总是显示空值。色调配置单元sql结果： zeppelin pyspark输出： hive表的详细信息：

浏览 18提问于2017-06-29得票数 0

1回答

使用python中的SQL文件运行SPARK会出现错误。

、

我正在尝试使用SPARK调用一个带有来自Python文件的单元查询的.SQL文件。它给出了错误-- AttributeError：'Builder‘对象没有属性'SparkContext’sc = SparkSession.SparkConte

浏览 2提问于2022-02-14得票数 0

1回答

如何在pyspark代码中创建python线程

、、

我在pyspark中按顺序执行了大约70个hive查询。我正在寻找改善并行运行配置单元查询的运行时间的方法。我计划通过创建Python线程并在线程中运行sqlContext.sql来实现这一点。这会在驱动程序中创建线程并提高性能吗？

浏览 20提问于2019-01-29得票数 0

2回答

SparkSQL JDBC (PySpark)到Postgres -创建表并使用CTEs

、、、、

我正试图确定是否可以通过JDBC从Spark将这些查询传递给Postgres。qry = """create tabl

浏览 5提问于2020-02-06得票数 1

回答已采纳

2回答

通过Spark将csv文件加载到现有配置单元故事中

、、、、

下面是我编写的代码，用于连接到关系数据库管理系统，然后创建临时表，在该临时表上执行SQL query，通过databricks模块将SQL查询输出保存为.csv格式。from pyspark import SparkContextfrom pyspark.sql import SQLContext"/xxxx&

浏览 30提问于2017-12-22得票数 0

回答已采纳

1回答

来自配置单元查询的持久PySpark数据帧

、、、

我正在从一个Hive表中获取一些数据：import pyspark.sql.functions as func from datetime import datetimefrom pyspark.sql

浏览 1提问于2016-03-29得票数 1

1回答

在PySpark笔记本中加载sql脚本

、

在Analytics中，我希望将我的SQL查询与我的PySpark记事本分开。可以吗？，以及将SQL脚本加载到变量中的python代码是什么?

浏览 1提问于2022-11-09得票数 0

1回答

从PySpark查询远程配置单元元存储区

、、

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。如果可能的话，我想把所有的东西都放在python环境中。有什么想法吗？from pyspark.sql import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{

浏览 14提问于2020-09-28得票数 0

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连

浏览 0提问于2021-03-05得票数 0

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

、、、

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下：from pyspark.sql import SparkSession spark = SparkSession.builder.enable

浏览 2提问于2019-05-10得票数 2

2回答

将参数传递给配置单元查询

、

我像这样将参数传递给HIVE脚本，使用--hiveconf参数将一个值传递给HIVE查询。是否有其他方法可以将参数传递到配置单元脚本？beeline -u "${dbconection}" --hiveconf load_id=${loadid} -f /etc/sql/hive_script.sql hive_script.sql正在从table-

浏览 1提问于2018-10-25得票数 0

1回答

Spark 2.0 - pyspark2数据帧--“唯一标识生成”

、、、、

将spark 2.0与pyspark一起使用。在目标表中，希望创建唯一的row_ids，它将是唯一递增的，并且不应重复。示例代码SouceDf.registerastemptable (s

浏览 0提问于2018-06-15得票数 0

1回答

如何在aws emr中为pyspark executor设置环境变量？

、

我有一个运行pyspark应用程序(或在AWS EMR中称为steps )的aws emr集群。我想为pyspark应用程序设置环境变量，并将其放入集群配置中(在googling搜索之后)： [ "Classification": "spark-defaults", "spark.executorEnv.MY_ENV": &

浏览 14提问于2020-09-21得票数 0

回答已采纳

2回答

在pyspark sql中查找两个时间戳之间的差异

、、、、

在表结构下面，您可以注意到列名 cal_avg_latency = spark.sql("SELECT UnitType, ROUND(AVG(TIMESTAMP_DIFF(OnSceneDtTmTSlatency ASC")ParseException: "\nmismatched input 'FROM' expecting <EOF>(line 1, pos 122)\n\n== SQL---------------------------------------------

浏览 4提问于2018-08-09得票数 1

点击加载更多