腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
对
数据
集
进行
拆
包
、
、
、
、
我有一个
数据
集
,看起来像这样。如何在
pyspark
中
做到这一点?
浏览 1
提问于2017-08-18
得票数 0
回答已采纳
1
回答
按日期将吡火花
数据
集
拆分为两个
、
、
我有
pyspark
数据
集
,我想按照datetime列将其划分为列车和测试
数据
集
,其中,训练
数据
集
的日期时间应该小于日期时间列的中位数,而测试
数据
集
应该有其余的
数据
集
。我尝试按datetime列
对
dataset
进行
排序,并选择上半部分。但是这只解决了火车部件的问题,我不知道如何从
PySpark
中
的初始
数据
集中“减
浏览 0
提问于2019-08-21
得票数 0
回答已采纳
1
回答
在
Foundry代码存储库
中
,如何迭代目录
中
的所有
数据
集
?
、
我尝试
在
单个
Pyspark
转换
中
从单个目录读取(所有或多个)
数据
集
。有没有可能迭代路径
中
的所有
数据
集
,而不将单个
数据
集
硬编码为输入?我希望动态地从多个
数据
集中获取不同的列,而不必
对
单个输入
数据
集
进行
硬编码。
浏览 24
提问于2020-09-22
得票数 0
回答已采纳
1
回答
如何处理多步ML管道
中
的评价
、
、
此外,我们还可以评估管道
中
的回归器,现在我不明白的一点是:如何应用于测试
数据
。把
数据
分开。使用评估器(例如,二进制分类器)评估预测。 现在,假设我有3个步骤,最后一个步骤是回归者。我不能这样做,因为前两个测试
数据
也需要应用到测试
数据
中
,该如何处理呢?
浏览 0
提问于2019-08-13
得票数 1
3
回答
使用火花sql重命名Parquet文件
中
列名
中
的空格
、
我想使用Spark来显示拼花文件的内容,但是由于parquet文件
中
的列名包含空格,所以我得到了错误--属性名"First“包含”,;{}()\n\t=“
中
的无效字符。请使用别名重命名它。
浏览 0
提问于2018-09-16
得票数 5
1
回答
在
Pyspark
中
读取
数据
集
和提取特征
、
、
我
对
这个菜鸟问题表示歉意,因为我
对
pyspark
还不熟悉。我有一个
数据
集
,我已经摄取到HDFS
中
(因为它的大小很大)。但是,
数据
集
不是明文(.svm格式),我希望
对
其应用机器学习算法。我可以
在
pyspark
中将
数据
集
作为文本文件读取。但是,我需要以矩阵或其他形式的人类可读的输出,以便我可以从
数据
集中提取特征。谁能帮帮我。
浏览 10
提问于2019-11-15
得票数 0
回答已采纳
1
回答
如何从Python
中
的预聚合/分组
数据
创建盒图?
、
、
、
、
使用Matplotlib/Pandas/Seaborn,如何能够从聚合
数据
而不是原始
数据
构建盒图? 背景:数以百万计的人,我知道他们的年龄,我想做一个盒式的情节。因为我有数百万行,所以
在
进行
Pandas
中
的绘图之前,我首先使用
PySpark
收集
数据
集
。其结果是,我有一个
数据
集
,其中有一定年龄的人数(例如,100,000名18岁的人)。我似乎无法
在
Seaborn或maptlotli
浏览 0
提问于2020-06-04
得票数 1
回答已采纳
1
回答
如何使用Amazon Glue
中
的自定义
Pyspark
读取netCDF
数据
?
、
我正在创建一个
数据
管道来读取S3
中
的NetCDF
数据
,并计划将Amazon Glue for ETL与自定义
PySpark
一起使用。有没有什么特别的
pyspark
库可以用来支持
对
存储
在
S3
中
的
数据
进行
netCDF操作。参考
数据
集
如下所示: https://aws.amazon.com/blogs/publicsector/acces
浏览 32
提问于2019-02-05
得票数 0
1
回答
Pyspark
中
的范围划分
、
、
、
假设我有一个包含1,000,000个ids的
数据
集
。对于100个分区,我该如何按范围
进行
分区?我
在
Scala
中
见过RangePartitioner类,但在
PySpark
应用程序接口中似乎没有它。我有一个非常大的
数据
集
,目前正在按唯一id
进行
分区,但这创建了太多的分区。我想知道
在
PySpark
中
关于范围分区的最佳实践 df.write.partitionBy('unique
浏览 19
提问于2019-04-18
得票数 1
回答已采纳
1
回答
火花放电
中
的多重转换/动作与懒惰评估
、
、
我正在
PySpark
上
进行
一个项目,该项目需要处理大型
数据
集
(大小约为2GB的多个.csv文件)。C = A.join(B, A.key_1 == B.key_2, "full")C.count()
PySpark
是否
在
每次调用C.count()时都会重新执行
对
A和B*+* A+B的完全连接操作所执行的所
浏览 3
提问于2022-11-14
得票数 0
1
回答
用于多文本文档的mllib和
pyspark
词袋模型
、
、
、
、
我有150个文本文档(训练
集
),我想用
pyspark
和mllib
包
"feature“
对
它们
进行
”词袋“表示。然后,我有另外150个文本文档(测试
集
),我还想将每个文档转换为一个词袋,目的是将此测试
集
的每个元素映射到具有最高余弦相似度的训练
集
文档。为了做到这一点,我将为权重实现TF-IDF :这需要
中
每个文档的词频和我想要匹配的组合训练
集
。但是,为了简洁起见,我从相同的目录
中
循环上传每个文本
浏览 2
提问于2015-08-11
得票数 1
2
回答
如何在安卓中使用MediaCodec Api解码RTP上的H264
、
、
、
在
发送端,我使用安卓手机捕获视频,获取H264帧并按照各自的RFC ->RFC 3984将它们打包成RTP
包
。发送端没有问题。流由VLC接收并播放。谢谢。
浏览 0
提问于2013-12-17
得票数 5
4
回答
pyspark
Cassandra连接器
、
、
、
我必须安装
pyspark
-cassandra-connector,它在
中
可用,但我遇到了巨大的问题和错误,并且没有关于python的spark的支持文档,这称为
pyspark
!我想知道
pyspark
-cassandra-connector
包
是失效了还是别的什么?另外,我需要清楚的git克隆
pyspark
- cassandra -connector
包
的一步一步的教程,安装和导入到
pyspark
shell
中
,并与cassandra成功连
浏览 2
提问于2017-04-19
得票数 0
1
回答
如何
对
PySpark
DataFrame的每一列
中
的
数据
进行
混洗?
、
、
、
、
我是一个用
PySpark
编程的初学者。我
在
CSV文件中有以下
数据
,该文件正在被读取到Spark Dataframe
中
,并且我想从一个小
数据
集
开始生成一个大型
数据
集
。 .option("inferSchema", "true") .csv(file_pa
浏览 16
提问于2020-05-11
得票数 0
1
回答
如何制作交叉验证
数据
集
、
、
、
我想
对
机器学习算法
进行
交叉验证,但又想检查每次迭代的模型估计。你知道
pyspark
上是否有一个函数可以让我创建k倍的
数据
集
吗? 我需要k倍
数据
集
来运行每个算法并输出变量估计。例如,如果它是5倍的CV,我需要准备好5个
数据
集
,以便针对算法运行。
浏览 22
提问于2021-01-06
得票数 0
1
回答
PySpark
如何在构建推荐器时合并用户项目功能?
、
、
、
PySparks mllib
包
提供了训练()和训练隐式()方法,分别用于训练显式和隐式
数据
上的推荐模型。u1, i1, 1 u1, i2, 1 u2, i2, 1 u2, i3, 1 ... un, im, 1 其中u表示用户,i表示项。但我不能在
pyspark
.mllib
浏览 0
提问于2017-03-18
得票数 1
2
回答
Pyspark
dataframe到pandas的转换会丢弃
数据
吗?
、
开始时,我有一个
pyspark
dataframe,其中包含ids
集
的成对相似性。我喜欢按ID_A
对
其
进行
分组,按EuclideanDistance
对
每组
进行
排序,并且只获取每组的前N
对
。结果”
数据
帧
中
。尽管它仍然
在
result1
中
)。在此转换链
中
是否存在可能导致
数据
丢失的问题?
浏览 1
提问于2018-05-02
得票数 0
3
回答
比较空字符和字符抛出异常
、
为什么下面的代码会抛出一个NPE?if(c == ' ') { }
浏览 1
提问于2018-05-09
得票数 3
6
回答
如何融化火花DataFrame?
、
、
、
在
PySpark
或至少
在
Scala
中
,Apache
中
是否存在类似于Pandas功能的? 到目前为止,我
在
Python
中
运行了一个示例
数据
集
,现在我想
对
整个
数据
集
使用Spark。
浏览 20
提问于2017-01-16
得票数 63
回答已采纳
1
回答
机器学习算法导致电火花算法的精度低。
、
、
、
、
我使用
数据
集
和机器学习算法,根据87个特征(列)
对
75个网络流量类
进行
分类。
数据
集
由3.577.296个实例(行)组成。首先
对
标签
进行
索引,
对
具有连续值的列
进行
标准化,应用特征选择,然后使用ML算法
进行
分类: Logistic回归、随机森林、决策树和朴素基。所有算法的精度都很低(
在
NV中使用DT & 0.005 )为0.59。这些低准确度背后的原因是什么? 拜托我需要帮助。
浏览 8
提问于2022-02-13
得票数 -1
点击加载更多
相关
资讯
在Keras中如何对超参数进行调优?
如何用DataFocus对Excel表中数据进行分析?
在 Linux 中如何对 CPU 进行压力测试|Linux 中国
如何对单元格中的数据进行强制换行
通过公式对Excel数据表中数据进行计算与查看
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券