腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
Dataframe
向
所有
数字
列
添加
双引号
、
、
、
是否有办法使用scala将
双引号
添加
到
spark
数据框中的
所有
数值
列
我已经看过这份文档,但没有
向
数字
列
添加
双引号
的配置。
浏览 26
提问于2019-10-10
得票数 1
回答已采纳
1
回答
在
spark
中使用scala加载csv文件创建数据
、
、
、
、
但是csv文件中
添加
了额外的
双引号
,这会将
所有
cloumns都
添加
到单个
列
中。"2,""Jhon"",20,""mail""" val df = sqlContext.read.format("com.databri
浏览 0
提问于2018-03-06
得票数 0
回答已采纳
1
回答
将StringType
列
添加
到现有的
DataFrame
中,然后应用默认值
、
、
、
(更重要的是,),这个问题也仅限于
向
现有的
dataframe
中
添加
一个新
列
,而我需要
添加
一个
列
以及数据中
所有
现有行的值。因此,我希望向现有的
DataFrame
添加
一
列
,然后将该新
列
的初始(“默认值”)值应用到
所有
行。“StringType”
列
,然后默认
所有
行都包含z-value of "red"。$1.apply(
Da
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
1
回答
如何在
Spark
Dataframe
中将一个时区转换为另一个时区
、
、
我正在从PostgreSQL读取
Spark
Dataframe
,并在PostgreSQL中有日期
列
,如下所示: last_upd_date"2021-04-21 22:33:06.308639-05" 但在
spark
dataframe
中,它
添加
了小时间隔。eg: 2020-04-22 03:33:06.308639 在这里,它
向
last_upd_date
列
添加
了5个小
浏览 28
提问于2021-06-24
得票数 2
1
回答
如何在
DataFrame
Spark
1.6中加载特定的Hive分区?
、
、
按照官方的,我们不能
向
DataFrame
添加
特定的单元分区
DataFrame
df = hiveContext.read如果给出如下所示的基路径,它不包含我希望在
DataFrame
中包含的实体
列
,如下所示-
DataFrame
df = hiveContext.read().format("orc").lo
浏览 3
提问于2016-01-07
得票数 7
回答已采纳
3
回答
向
Spark
DataFrame
添加
空
列
、
、
、
、
正如web上的 中所提到的,
向
现有
DataFrame
添加
新
列
并不简单。不幸的是,拥有这种功能是很重要的(尽管它在分布式环境中效率很低),尤其是在尝试使用unionAll连接两个
DataFrame
时。将null
列
添加
到
DataFrame
以简化unionAll的最优雅的解决方法是什么from pyspark.sql.types import StringType from pyspark.sql.functions
浏览 0
提问于2015-10-09
得票数 63
回答已采纳
2
回答
Spark
:
向
dataframe
添加
条件
列
、
、
、
、
我希望向
dataframe
添加
一个条件
列
Flag。当满足以下两个条件时,将1
添加
到Flag,否则为0: +----+------+-----+------------------------+|1001|taco |2.59 |2018-07-21T01:00:07.961Z| +----+-
浏览 0
提问于2019-04-08
得票数 0
回答已采纳
1
回答
Spark
在
添加
随机双列时,在
所有
行中都有重复值。
、
、
我试图在
dataframe
中
添加
一个新
列
。新
列
包含随机双值。该问题是
DataFrame
中
所有
行的新
列
中的值重复。我使用scala.util.Random类来生成。我试图简单地
向
dataframe
添加
一个新
列
,就像在类似的帖子中建议的那样。我试图将
DataFrame
更改为Dataset并
添加
列
。有一种工作方法--在驱动程序上收集数据,并
添加
浏览 2
提问于2019-04-26
得票数 2
回答已采纳
3
回答
如何处理
spark
sql中缺少的
列
、
、
我们正在处理无模式的JSON数据,有时
spark
作业会失败,因为我们在
spark
SQL中引用的一些
列
在一天中的某些时间内不可用。在这些小时内,
spark
作业失败,因为所引用的
列
在数据帧中不可用。我尝试过UDF,但是我们缺少太多的
列
,所以不能真正地检查每一
列
的可用性。我还尝试在更大的数据集上推断模式,并将其应用于数据帧,期望缺少的
列
将用null填充,但模式应用程序失败并出现奇怪的错误。
浏览 5
提问于2018-08-10
得票数 2
2
回答
向
spark
dataframe
添加
常量值
列
、
、
我在Databricks中使用
Spark
版本2.1。我有一个名为wamp的数据框,我想在其中
添加
一个名为region的
列
,该
列
应该采用常量值NE。
浏览 2
提问于2017-05-18
得票数 9
回答已采纳
1
回答
星火数据仓库csv附加额外的
双引号
、
、
当我将CONCAT应用于
spark
sql中的
dataframe
并将该
dataframe
作为csv文件存储在HDFS位置时,只在输出文件中
添加
额外的
双引号
到concat
列
中。只有当我将show.This
双引号
存储为csv文件时,才
添加
此
双引号
。 似乎我需要删除额外的
双引号
,这些
双引号
是在我将
dataframe
保存为csv文件时
添加
的。我正在使用com.databr
浏览 4
提问于2017-06-07
得票数 1
回答已采纳
1
回答
java.util.NoSuchElementException:表中找不到
列
、
、
、
、
, create_date date, model_family_name text我的
dataframe
MODEL_FAMILY_ID, MODEL_FAMILY, CREATE_DATE, LAST_UPDATE_DATE, MODEL_FAMILY_NAME at com.datastax.
spark
.connector.SomeColumns.selectFrom
浏览 2
提问于2018-09-27
得票数 1
回答已采纳
1
回答
如何使用StructField数组
向
df
添加
列
?
、
、
我有两个dataframes,我想在第一个数据中
添加
第二个
列
中的
所有
列
,而不是第一个
列
。我得到了一个StructField
列
数组,我想将这些
列
添加
到
dataframe
中,并填充为null。这是我想出的最好的: private def addColumns(df:
DataFrame
, columnsToAdd: Array[StructField]):
DataFrame
= {val
sp
浏览 2
提问于2022-08-12
得票数 0
回答已采纳
1
回答
Spark
sql (1.4):获取当前时间戳
、
、
、
我知道在
Spark
1.5及更高版本中有一个'current_timestamp‘函数,但我们还在1.4版本中。如何
向
设置为“current timestamp”的
DataFrame
添加
列
?
浏览 54
提问于2016-08-16
得票数 0
回答已采纳
1
回答
如何仅使用字符
双引号
导出pandas csv格式
、
、
、
我有一个由
数字
列
和字符
列
组成的
dataframe
。 我想将其导出为csv格式,并仅将
双引号
应用于字符
列
。 导出csv格式只有字符
双引号
有什么提示吗? 下面是我的简单示例。 谢谢。test = pd.
DataFrame
({'char' : ['100', '200'], 'num' : [700, 800]}) test.to_csv('test_out.csv
浏览 11
提问于2021-01-07
得票数 1
回答已采纳
1
回答
星火中每
列
值之和
、
、
我所做的是将我在
Spark
中获得的数据some转换为Pandas (使用
Spark
2Pandas命令),然后对其进行如下工作: 基本上,我有一个有100
列
的Pandas
dataframe
,每个
列
都称为因此,首先,我删除了每一
列
文本的"FirstP“和”SecondP“部分(基本上,我只保留
数字
)。之后,使用for循环创建一个新
列
,在该
列
中,我将
添加
每个
列
的
所有
值的总和。
浏览 3
提问于2022-01-06
得票数 -2
回答已采纳
1
回答
SparkSQL:未找到值支出
、
、
、
在使用
Spark
构建一个简单的应用程序时,我遇到了一些问题。我想要做的是
向
DataFrame
添加
一个新
列
。._correctDF.withColumn("COL1", expr("concat('000',COL1)") )scalaVersion := "2.10.5"
浏览 2
提问于2016-03-31
得票数 1
回答已采纳
1
回答
如何删除Pyspark中
列
中的逗号
、
、
、
、
嗨,谢谢你能帮我这个忙,我有一
列
数字
(在本例中是字符串)。它们是像6,000这样的
数字
,我只想去掉这些
数字
中的
所有
逗号。我尝试过df.select("col").replace(',' , '')和df.withColumn('col', regexp
浏览 8
提问于2022-03-02
得票数 1
2
回答
火花:如何防止DataFrameWriter在调用write.partitionBy时删除分区
列
?
我们使用下面的方法来保存星星之火sql数据来自 根据文件系统上的给定
列
对输出进行分区
浏览 1
提问于2017-06-15
得票数 1
回答已采纳
1
回答
如何在csv数据仓库中
添加
拖车/页脚
、
、
我有这样的解决方案因此,我以"","","".....的形式
添加
了其余的47
列
,这样我就可以合并2数据格式了:如果我想存钱 df3.coalesce(1).write.format("com.databricks.
spark
.csv&
浏览 3
提问于2021-08-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
如何管理Spark的分区
Spark之SparkSQL
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
我用Rust徒手重写了一个Spark,并把它开源了
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券