腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
SQL
传递
变量
- Synapse (Spark池)
、
、
、
、
我有下面的SparkSQL (Spark pool -Spark3.0)代码,我想传递一个
变量
给它。我该怎么做呢?我尝试了以下几种方法:%%
pyspark
select * from silver.employee_dim
浏览 23
提问于2021-06-02
得票数 0
1
回答
将
变量
传
递给
pyspark
sql
中
的
配置
单元
查询
、
、
我正在尝试使用spark
sql
对hive表执行
查询
。spark=SparkSession.builder.master("local[1]".enableHiveSupport().appName("test").getOrCreate() df=spark.
sql
("select * from table_name where date='2021-05-16' and name='xxxx'") 但我希望
将
日期和名称作
浏览 22
提问于2021-09-17
得票数 0
回答已采纳
1
回答
在shell oozie操作
中
读取python脚本
中
的
hive表
、
、
、
我在一个oozie shell操作
中
运行了以下python脚本shell_csv.sh: #!subprocess.PIPE, stderr=subprocess.PIPE).communicate() 它可以很好地处理"csv_1“文件,但现在不是读取"csv_1”文件,而是直接从从中导出"csv_1“文件
的
配置
单元
表
中
读取工作流在Hadoop服务器
中
运行,
配置
单元
表存储在HDF目录
中
。 有人知道怎么做
浏览 28
提问于2021-08-06
得票数 0
1
回答
实例化'org.apache.spark.
sql
.hive.HiveExternalCatalog‘时出错
、
我无法从
Pyspark
运行
配置
单元
查询
。我尝试
将
hive-site.xml复制到spark
的
conf
中
,但还是抛出了同样
的
错误 完全错误 Traceback (most recent call last): File "/usr/local/spark-2.4.0/python
浏览 202
提问于2020-04-07
得票数 2
1
回答
无法在
pyspark
中导入parse_url
、
、
对于
pyspark
中
的
hiveql,我有以下
sql
查询
:我想翻译成函数式
查询
,比如: df.select(split(parse_url(col('page.viewed_page'), 'HOST&
浏览 25
提问于2019-11-07
得票数 3
回答已采纳
1
回答
使用
配置
单元
元数据读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取
配置
单元
表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe
中
的
模式)?我希望
将
文件位置、表名和数据库名作为输入传
递给
aa程序/函数,以便从
配置
单元
元数据(可能是元数据xml)
中
获取模式/列名称,并作为dataframe
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
SparkSql从
配置
单元
表
中
获取浮点类型字段值null
、
、
我使用sqoop创建和导入hive表,并使用
pyspark
获取数据。该表由一个字符串字段、一个整型字段和多个浮点型字段组成。我可以通过hue hive
sql
查询
获得整个数据。但是,当我使用
pyspark
sql
编程时,可以显示非浮点型字段,而浮点型字段总是显示空值。色调
配置
单元
sql
结果: zeppelin
pyspark
输出: hive表
的
详细信息:
浏览 18
提问于2017-06-29
得票数 0
1
回答
使用python
中
的
SQL
文件运行SPARK会出现错误。
、
我正在尝试使用SPARK调用一个带有来自Python文件
的
单元
查询
的
.
SQL
文件。它给出了错误-- AttributeError:'Builder‘对象没有属性'SparkContext’sc = SparkSession.SparkConte
浏览 2
提问于2022-02-14
得票数 0
1
回答
如何在
pyspark
代码
中
创建python线程
、
、
我在
pyspark
中
按顺序执行了大约70个hive
查询
。我正在寻找改善并行运行
配置
单元
查询
的
运行时间
的
方法。我计划通过创建Python线程并在线程
中
运行sqlContext.
sql
来实现这一点。这会在驱动程序
中
创建线程并提高性能吗?
浏览 20
提问于2019-01-29
得票数 0
2
回答
SparkSQL JDBC (
PySpark
)到Postgres -创建表并使用CTEs
、
、
、
、
我正试图确定是否可以通过JDBC从Spark
将
这些
查询
传
递给
Postgres。qry = """create tabl
浏览 5
提问于2020-02-06
得票数 1
回答已采纳
2
回答
通过Spark
将
csv文件加载到现有
配置
单元
故事
中
、
、
、
、
下面是我编写
的
代码,用于连接到关系数据库管理系统,然后创建临时表,在该临时表上执行
SQL
query,通过databricks模块
将
SQL
查询
输出保存为.csv格式。from
pyspark
import SparkContextfrom
pyspark
.
sql
import SQLContext"/xxxx&
浏览 30
提问于2017-12-22
得票数 0
回答已采纳
1
回答
来自
配置
单元
查询
的
持久
PySpark
数据帧
、
、
、
我正在从一个Hive表
中
获取一些数据:import
pyspark
.
sql
.functions as func from datetime import datetimefrom
pyspark
.
sql
浏览 1
提问于2016-03-29
得票数 1
1
回答
在
PySpark
笔记本中加载
sql
脚本
、
在Analytics
中
,我希望将我
的
SQL
查询
与我
的
PySpark
记事本分开。可以吗?,以及
将
SQL
脚本加载到
变量
中
的
python代码是什么?
浏览 1
提问于2022-11-09
得票数 0
1
回答
从
PySpark
查询
远程
配置
单元
元存储区
、
、
我正在尝试使用用户名/密码/jdbc url
查询
PySpark
中
的
远程
配置
单元
元存储区。我可以很好地初始化SparkSession,但无法实际
查询
表。如果可能的话,我想把所有的东西都放在python环境
中
。有什么想法吗?from
pyspark
.
sql
import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{
浏览 14
提问于2020-09-28
得票数 0
1
回答
将
Dataframe激发到StringType
、
、
、
在
PySpark
中
,如何
将
Dataframe转换为普通字符串?我
将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是在
PySpark
中
参数化了Kafka broker名称。Json文件保存了代理详细信息,Spark读取这个Json输入并将值赋值给
变量
。这些
变量
为带有字符串
的
Dataframe类型。当我
将
dataframe传
递给
Pyspark
连
浏览 0
提问于2021-03-05
得票数 0
1
回答
将
dynamodb表复制到
配置
单元
的
pyspark
代码问题:不允许操作
、
、
、
我正在尝试使用
pyspark
代码从aws emr上
的
Dynamodb创建一个外部
配置
单元
表。当我在hive提示符上执行该
查询
时,它工作得很好,但当我将它作为
pyspark
作业执行时,它就失败了。代码如下:from
pyspark
.
sql
import SparkSession spark = SparkSession.builder.enable
浏览 2
提问于2019-05-10
得票数 2
2
回答
将
参数传
递给
配置
单元
查询
、
我像这样
将
参数传
递给
HIVE脚本,使用--hiveconf参数
将
一个值传
递给
HIVE
查询
。是否有其他方法可以
将
参数传递到
配置
单元
脚本?beeline -u "${dbconection}" --hiveconf load_id=${loadid} -f /etc/
sql
/hive_script.
sql
hive_script.
sql
正在从table-
浏览 1
提问于2018-10-25
得票数 0
1
回答
Spark 2.0 -
pyspark
2数据帧--“唯一标识生成”
、
、
、
、
将
spark 2.0与
pyspark
一起使用。在目标表
中
,希望创建唯一
的
row_ids,它将是唯一递增
的
,并且不应重复。示例代码SouceDf.registerastemptable (s
浏览 0
提问于2018-06-15
得票数 0
1
回答
如何在aws emr
中
为
pyspark
executor设置环境
变量
?
、
我有一个运行
pyspark
应用程序(或在AWS EMR
中
称为steps )
的
aws emr集群。我想为
pyspark
应用程序设置环境
变量
,并将其放入集群
配置
中
(在googling搜索之后): [ "Classification": "spark-defaults", "spark.executorEnv.MY_ENV": &
浏览 14
提问于2020-09-21
得票数 0
回答已采纳
2
回答
在
pyspark
sql
中
查找两个时间戳之间
的
差异
、
、
、
、
在表结构下面,您可以注意到列名 cal_avg_latency = spark.
sql
("SELECT UnitType, ROUND(AVG(TIMESTAMP_DIFF(OnSceneDtTmTSlatency ASC")ParseException: "\nmismatched input 'FROM' expecting <EOF>(line 1, pos 122)\n\n==
SQL
---------------------------------------------
浏览 4
提问于2018-08-09
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
如何在CDH集群上部署Python3运行环境及运行Python作业
Jupyter在美团民宿的应用实践
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券