腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
架构
中
指定
字符串
数组
、
如何在
pyspark
sql模式中
指定
字符串
数组
。我不想使用StructFields。 在下面的示例
中
,城市在
数组
列表
中
。
浏览 23
提问于2021-07-09
得票数 1
回答已采纳
1
回答
能够读进RDD,但不能读到火花数据格式
、
必须手动
指定
。回溯(最近一次调用):
pyspark
.sql.utils.AnalysisException:无法推断CSV的
架构
。必须手动
指定
。 因此,我尝试使用下
浏览 3
提问于2022-01-25
得票数 0
1
回答
使用
pyspark
比较拼图文件的元数据
、
、
、
我正在使用
pyspark
,有一个情况,我需要比较2拼图文件的元数据。示例:- 拼图1
架构
为: 1,ID,
字符串
2,地址
字符串
3,日期,日期 拼图2
架构
为: 1,ID,
字符串
2,日期,日期3,地址
字符串
这应该会显示出不同之处,因为拼花地板2
中
的col2移到了col3。
浏览 12
提问于2020-01-21
得票数 0
3
回答
将模式数据类型JSON混合到
PySpark
DataFrame
、
、
我需要将JSON的列表转换为
pySpark
DataFrames。JSON都有相同的
架构
。问题是JSON
中
dicts的值条目有不同的数据类型。例如:字段complex是一个Dicts
数组
,Dict有四个键,但类型不同(整数、
字符串
、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)从jsons
中
创建我的DataFrame,因为他无法正确地推断模式,所以
pyspark
“删除”了一些数据。<e
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
PySpark
:从DataFrame
中
的
字符串
列中提取多个json元素
、
、
资料来源:---------------------------------------------|US |[{"name":"xyz", "address":"xyzaddress"},{"name":"abc", "address":
浏览 4
提问于2022-01-03
得票数 0
2
回答
将数据保存到HDFS的格式是什么?
、
、
、
在
dataframe或rdd
中
是否有其他格式可用于
在
Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
2
回答
PySpark
配置单元SQL -未插入数据
、
、
、
、
我首先在HUE的图形界面
中
为Hive创建了一个表"animals“,感谢下面的查询:于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1,dog):from
pyspark
import SparkContext from
pyspark
.sql= hc.sql("select 1 as id, 'dog' as
浏览 2
提问于2018-01-25
得票数 0
1
回答
PySpark
RDD与Scala的转换
、
、
TL;DR -我
在
PySpark
应用程序中有一个看起来像
字符串
的DStream。我想将它作为一个DStream[String] 发送到Scala库。但是,Py4j不转换
字符串
.。我正在开发一个
PySpark
应用程序,它使用星火流从Kafka提取数据。我的消息是
字符串
,我想在Scala代码
中
调用一个方法,向它传递一个DStream[String]实例。但是,我无法
在
Scala代码
中
接收到适当的JVM
字符串
。在我看来,P
浏览 4
提问于2016-09-12
得票数 5
回答已采纳
1
回答
以编程方式
指定
PySpark
中
的
架构
、
我希望显式地
指定
模式。下面是我尝试过的代码片段。from
pyspark
.sql.types import StructField, StructType , LongType, StringType stringJsonRdd_new = sc.parallelize
浏览 6
提问于2018-02-01
得票数 1
回答已采纳
1
回答
如何在不
指定
架构
的情况下使用
PySpark
中
的struct列创建数据格式?
、
、
、
、
我正在学习
PySpark
,它可以方便地快速创建示例数据文件来尝试
PySpark
API的功能。以下代码(其中spark是火花会话):df = [{'id': 1, 'data': {'x': 'mplah', 'y': [10,20,30': 'mplah2', 'y': [100,200,300]}},df = spark.
浏览 2
提问于2022-05-01
得票数 3
回答已采纳
1
回答
Pyspark
/ Dataframe:添加将嵌套列表保留为嵌套列表的新列
、
、
、
s', 'o'], ['hallo', 'ti']]], 为了从这个输出
中
创建一个新的我认为这是因为我对新列“.
数组
”的定义(lit(“10”))。 为了保持原来的格式,我必须使用什么?
浏览 0
提问于2017-06-27
得票数 0
回答已采纳
1
回答
指定
字符串
长度大于256的
pyspark
dataframe
架构
、
、
、
根据的说法,这只
在
Scala
中
是可能的。如何使用varchar(max)
指定
模式?
浏览 9
提问于2018-09-06
得票数 1
回答已采纳
2
回答
在
pyspark
DataFrame
中
创建某个类型的空
数组
列
、
、
、
我尝试向df添加一个包含
字符串
数组
的空
数组
的列,但最终添加了一个
字符串
数组
的列。我试过这个: import
pyspark
.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在
pyspark
中
做到这一点?
浏览 91
提问于2019-08-28
得票数 9
回答已采纳
1
回答
使用套接字的火花结构化流,设置模式,
在
控制台中显示DATAFRAME
、
、
、
如何在DataFrame
中
为流
PySpark
设置
架构
。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .builder如何使用它
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
1
回答
如何在将数据从
PySpark
加载到Redshift时执行列编码
、
我正在尝试加载数据,这是
在
S3上的拼花格式,以aws红移直接使用吡火花。我能够做到这一点,但是当我
在
表定义中看到列的编码时,它是一致的。我想要使它特别一致,我希望他们都是伊索。我
在
com.databricks:spark-redshift_2.10:1.0.0
中
看不到列编码的任何选项 x.write.format("com.databricks.spark.redshift
浏览 2
提问于2016-07-22
得票数 1
1
回答
为嵌套Json创建Spark结构化流模式
、
、
、
我想为我的结构化流作业(
在
python
中
)定义模式,但我无法以我想要的方式获得dataframe模式。"Alert": "This is the payload" "regionNumber": 11000002}但是我得到了我的模式 df->警报 例如,带有单个列的dataframe,名为
浏览 0
提问于2022-03-14
得票数 1
回答已采纳
1
回答
从S3读取拼花分区表是从分区列
中
删除前导零
、
、
、
我使用EMR(
pyspark
)编写了一个
pyspark
作为s3的块,该数据由列(A)(即StringType() )划分。
在
S3
中
,数据如下所示 A=0003 A=C456 part-file.parquet当我将此作为数据回传阅读时,我会在数据报的'A‘列
中
松开前导零。
浏览 0
提问于2020-04-11
得票数 0
回答已采纳
1
回答
Pyspark
句柄从
字符串
转换为十进制
、
我是
在
Databricks中使用
Pyspark
的新手,所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe,它有数据类型为string的列。要求将此列和其他与财务相关的列从
字符串
更改为小数。这是因为我要导出Azure SQL数据库
中
的
架构
和数据。我尝试了以下几种方法: 从
pyspark
.sql.functions导入列从
pyspark
.sql.types导入DecimalType newouterjoindffinal = newouterjoindf.
浏览 23
提问于2021-10-25
得票数 0
回答已采纳
1
回答
如何解析星火中不同类型的JSON列表?
、
、
、
、
我把这个文件保存在/test.json
中
我需要为它定义一个模式spark.read.schema(schema).option("mode", "FAILFAST").json("/test.json")
浏览 6
提问于2022-02-11
得票数 0
1
回答
作为
PySpark
的reduceByKey键的列表
、
、
、
我试图
在
格式为reduceByKey的(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用
pyspark
的(([a,b,c], 1), ([a,b,通过简单地应用.reduceByKey(add),
pyspark
似乎不会接受
数组
作为普通键的键,即值约简。我已经尝试过先通过.map((x,y): (str(x),y))将
数组
转换为
字符串
,但这不起作用,因为
字符串
的后处理太慢了。是否有一种方法可以使
pyspark
浏览 3
提问于2015-07-14
得票数 8
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Typescript 数组在指定位置插入元素(splice方法)
egrep:在文件内查找指定的字符串
按出现次数从少到多的顺序输出数组中的字符串
2种方法在字符串的指定位置插入新的字符
还不会提取不规则字符串中的指定信息?超实用Excel神技来了!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券