腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
:
获取
最近
3天
的
数据
给定一个包含日期
的
数据
帧,我希望只
获取
数据
帧中
最近
3天
的
可用行 |id|date||2|2019-11-30||4|2019-11-28F.desc('date')).distinct().limit(3).collect() df.filter(df.date.isin(F.lit(dates))).show(10,False) 我得到
的
错误是
浏览 40
提问于2020-08-26
得票数 1
回答已采纳
1
回答
socket.timeout mongoDB火花放电
、
、
、
、
python文件执行一个查询,从mongoDB
获取
一些
数据
,然后他们使用星火中
的
映射操作来处理这些
数据
。 回溯(
最近
一次调用):文件"/home/ana/computational_tools_for_big_data/project/review_analysis.py",
浏览 4
提问于2016-11-27
得票数 4
2
回答
验证
PySpark
数据
格式
的
日期列
、
、
、
、
我想验证
PySpark
数据
的
日期列。我知道如何为熊猫做这件事,但不能让它对
PySpark
有效。ValueError:它适用于熊猫
数据
采集但我不能让它为
PySpark
工作。
获取
以下错误: sparkDF = sparkDF['DOB'].apply(lambda x:
浏览 8
提问于2022-10-18
得票数 1
回答已采纳
2
回答
Pyspark
读取csv
、
、
新
的
pyspark
,并希望读取csv文件到
数据
帧。看起来不能读。有什么帮助吗?from
pyspark
.sql import SQLContextfrom
pyspark
.sql import Row rdd.cou
浏览 3
提问于2018-05-14
得票数 1
回答已采纳
1
回答
在
PySpark
中添加具有滚动最新优先级
的
列
、
我有一个包含客户、日期和交易类型列表
的
pyspark
dataframe。X1 || B | 7 | X1 || B | 7 | X1 | X1 | +----------+-----+------+-------------+ 因此,对于X类型,它只
获取
当前行中
的
类型,但对于Y
浏览 35
提问于2019-06-11
得票数 0
回答已采纳
1
回答
有没有人能够在Spark中使用elasticsearch xpack sql?
、
、
、
使用
PySpark
,我试图从elasticsearch中读取
数据
。: { } 但是,
最近
我在kibana上尝试了_xpack/sql,在其他SQL客户端上尝试了JDBC,它们在
获取
数据
方面都工作得很好。但是,当我尝试在我
的
pyspark
代码中引用_xpack时,我得到了以下错误: Py4JJavaError
浏览 0
提问于2019-01-31
得票数 3
1
回答
使用配置单元元
数据
读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据
帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态
获取
hive列名(用作dataframe中
的
模式)?我希望将文件位置、表名和
数据
库名作为输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)中
获取
模式/列名称,并作为dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
运行spark.read.json时在json中找到重复列,即使没有重复列
、
、
、
在
PySpark
和Synapse
数据
流中,我遇到了非常奇怪
的
错误。 AnalysisException:在
数据
模式中找到重复列:amendationcommentkey、amendationreasonkey、amendationregulatoryproofkey回溯(
最
浏览 3
提问于2021-11-25
得票数 0
1
回答
ModuleNotFoundError:没有名为'sklearn‘
的
模块
、
、
、
、
我正在运行一段代码,它使用pickled来使用一个泡沫化
的
sklearn模型来
获取
数据
。在我将引擎更改为Python3.6之前,这在Python2.7中似乎没有问题。每当我尝试将dataframe写入
数据
库时,或者在另一个实例中,当我尝试将
数据
写入
数据
库时,我都会得到ModuleNotFoundError: No module named 'sklearn'。:org.apache.spark.SparkException:由于阶段失败而中止作业:阶段1.0中
浏览 12
提问于2022-02-09
得票数 0
1
回答
在3.6之前不支持python 2和3
、
、
我
的
代码编译成功,并通过了所有测试用例,但由于推荐错误而陷入困境: 我现在该怎么做?
浏览 4
提问于2021-12-25
得票数 -1
1
回答
在
Pyspark
/Hive中处理更改
的
数据
类型
、
、
、
在解析
pyspark
中不一致
的
数据
类型时,我遇到了一个问题。如下面的示例文件所示,SA键总是包含一个字典,但有时它可以显示为string值。当我尝试
获取
列SA.SM.Name时,会得到如下所示
的
异常。 对于SA.SM.Name列,如何将null设置为除了JSONs之外
的
值
的
pyspark
/hive。有人能帮帮我吗?我试图转换成不同
的
数据
类型,但是没有工作,或者我可能做错了什么。spark.read.json
浏览 6
提问于2020-10-10
得票数 0
1
回答
ValueError:时间
数据
“00.00.00”火花
、
、
、
、
我正在从"mm.dd.yy“格式
的
中
获取
日期值。我想把它转换成"mm.dd.yyyy“格式。from
pyspark
.sql.functions import udf def change_date:‘SparkException:由于阶段失败而中止
的
作业:阶段302.0中
的
任务23失败了4次,
浏览 2
提问于2020-04-16
得票数 1
回答已采纳
1
回答
使用
PySpark
从Blob存储容器加载CSV文件
、
、
、
我无法使用Jupyter Notebook中
的
PySpark
将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以使用Pandas将
数据
加载到Notebook中,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能推断出CSV
的
模式。inferSch
浏览 21
提问于2019-04-28
得票数 0
1
回答
pyspark
kafka流偏移量
、
、
、
、
我从下面的链接中获得了关于kafka主题偏移流
的
pyspark
。from
pyspark
.streaming import StreamingContextfrom
pyspark
.streaming.kafkaKafkaUtils.createDirectStream(stream, [topic], kafkaParams, 参考链接: 我不知道在下面提
浏览 0
提问于2018-10-06
得票数 0
3
回答
在Spark DataFrame中将空值转换为空数组
、
、
、
我有一个Spark
数据
帧,其中一列是整数数组。该列可以为空,因为它来自左外部联接。我希望将所有null值转换为一个空数组,这样以后就不必处理null值了。有没有其他简单
的
方法来转换空值?如果是相关
的
,下面是本专栏
的
模式:| |-- element: integer (containsNull = false)
浏览 5
提问于2016-01-08
得票数 24
回答已采纳
2
回答
如何在Palantir Foundry中
的
PySpark
架构上创建空
数据
集?
、
我有一个
PySpark
模式,它描述
数据
集
的
列及其类型(我可以手工编写这些
数据
集,也可以从现有的
数据
集
获取
,然后转到“
PySpark
”选项卡,然后“复制
PySpark
模式”)。我想要一个包含此架构
的
空
数据
集,例如,它可以用作只写回写
的
本体对象
的
支持
数据
集。我怎样才能在铸造中创造这个呢?
浏览 16
提问于2022-08-18
得票数 3
回答已采纳
3
回答
空值,同时将字符串转换为使用
pyspark
的
datetime。
、
最近
,我开始在databricks上使用
pyspark
,在将下面的字符串转换为DateTime
数据
类型时,如何获得空值是很有趣
的
。我在这里看过几篇关于如何做到这一点
的
文章,但似乎没有一篇对我有用。样本
数据
001 34 12/1/2010 8:26 004
浏览 14
提问于2021-07-15
得票数 1
回答已采纳
1
回答
火花中
的
dataframe.show()和dataframe.take()有什么区别?为了提高业绩,我们需要增加什么?
、
我正在使用dataframes从parquet文件读取
数据
,并创建一个临时视图,并在临时视图之上运行SQL查询。filename.parquet").createOrReplaceTempView("temptable")要检查df
的
结果,我使用
的
是df.show(),但是执行需要更多
的
时间,如果使用df.take(10),我没有看到任何区别。为了更好地检查结果,应该使用take(
浏览 1
提问于2018-12-21
得票数 1
2
回答
局部敏感散列
的
火花实现
、
作为一个项目的一部分,我正在为我
的
研究,我正在寻找一种方法使用散列功能
的
LSH与火花。有没有办法这样做?
浏览 1
提问于2014-12-31
得票数 2
回答已采纳
1
回答
优化迭代
数据
帧
的
复杂循环
的
最佳方法
、
、
、
、
我这里有几个方法,它们花费
的
时间比我想要
的
要长。我现在遇到了困难,因为我没有看到任何明显
的
方法来以更有效
的
方式编写这些方法。作为后台,代码所做
的
是处理一个销售
数据
集,以便找到与同一客户相关
的
以前
的
销售订单。但是,正如您将看到
的
,中间有很多业务逻辑,这可能会减慢速度。我正在考虑将其重构为
PySpark
工作,但在我这样做之前,我想知道这是不是完成这项工作
的
最好方法。 我将非常感谢这里
的
浏览 18
提问于2021-11-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
最近超火的自动获取QQ空间历史动态的开源项目
PySpark,一个大数据处理利器的Python库!
4,数据的获取
pyspark 一个大数据处理神器的Python库!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券