在pyspark中对数据集进行拆包

文章/答案/技术大牛

发布

1回答

、、、、

我有一个数据集，看起来像这样。如何在pyspark中做到这一点？

浏览 1提问于2017-08-18得票数 0

回答已采纳

1回答

按日期将吡火花数据集拆分为两个

、、

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

在Foundry代码存储库中，如何迭代目录中的所有数据集？

、

我尝试在单个Pyspark转换中从单个目录读取(所有或多个)数据集。有没有可能迭代路径中的所有数据集，而不将单个数据集硬编码为输入？我希望动态地从多个数据集中获取不同的列，而不必对单个输入数据集进行硬编码。

浏览 24提问于2020-09-22得票数 0

回答已采纳

1回答

如何处理多步ML管道中的评价

、、

此外，我们还可以评估管道中的回归器，现在我不明白的一点是:如何应用于测试数据。把数据分开。使用评估器(例如，二进制分类器)评估预测。现在，假设我有3个步骤，最后一个步骤是回归者。我不能这样做，因为前两个测试数据也需要应用到测试数据中，该如何处理呢？

浏览 0提问于2019-08-13得票数 1

3回答

使用火花sql重命名Parquet文件中列名中的空格

、

我想使用Spark来显示拼花文件的内容，但是由于parquet文件中的列名包含空格，所以我得到了错误--属性名"First“包含”，;{}()\n\t=“中的无效字符。请使用别名重命名它。

浏览 0提问于2018-09-16得票数 5

1回答

在Pyspark中读取数据集和提取特征

、、

我对这个菜鸟问题表示歉意，因为我对pyspark还不熟悉。我有一个数据集，我已经摄取到HDFS中(因为它的大小很大)。但是，数据集不是明文(.svm格式)，我希望对其应用机器学习算法。我可以在pyspark中将数据集作为文本文件读取。但是，我需要以矩阵或其他形式的人类可读的输出，以便我可以从数据集中提取特征。谁能帮帮我。

浏览 10提问于2019-11-15得票数 0

回答已采纳

1回答

如何从Python中的预聚合/分组数据创建盒图？

、、、、

使用Matplotlib/Pandas/Seaborn，如何能够从聚合数据而不是原始数据构建盒图？背景:数以百万计的人，我知道他们的年龄，我想做一个盒式的情节。因为我有数百万行，所以在进行Pandas中的绘图之前，我首先使用PySpark收集数据集。其结果是，我有一个数据集，其中有一定年龄的人数(例如，100,000名18岁的人)。我似乎无法在Seaborn或maptlotli

浏览 0提问于2020-06-04得票数 1

回答已采纳

1回答

如何使用Amazon Glue中的自定义Pyspark读取netCDF数据？

、

我正在创建一个数据管道来读取S3中的NetCDF数据，并计划将Amazon Glue for ETL与自定义PySpark一起使用。有没有什么特别的pyspark库可以用来支持对存储在S3中的数据进行netCDF操作。参考数据集如下所示： https://aws.amazon.com/blogs/publicsector/acces

浏览 32提问于2019-02-05得票数 0

1回答

Pyspark中的范围划分

、、、

假设我有一个包含1,000,000个ids的数据集。对于100个分区，我该如何按范围进行分区？我在Scala中见过RangePartitioner类，但在PySpark应用程序接口中似乎没有它。我有一个非常大的数据集，目前正在按唯一id进行分区，但这创建了太多的分区。我想知道在PySpark中关于范围分区的最佳实践 df.write.partitionBy('unique

浏览 19提问于2019-04-18得票数 1

回答已采纳

1回答

火花放电中的多重转换/动作与懒惰评估

、、

我正在PySpark上进行一个项目，该项目需要处理大型数据集(大小约为2GB的多个.csv文件)。C = A.join(B, A.key_1 == B.key_2, "full")C.count() PySpark是否在每次调用C.count()时都会重新执行对A和B*+* A+B的完全连接操作所执行的所

浏览 3提问于2022-11-14得票数 0

1回答

用于多文本文档的mllib和pyspark词袋模型

、、、、

我有150个文本文档(训练集)，我想用pyspark和mllib包"feature“对它们进行”词袋“表示。然后，我有另外150个文本文档(测试集)，我还想将每个文档转换为一个词袋，目的是将此测试集的每个元素映射到具有最高余弦相似度的训练集文档。为了做到这一点，我将为权重实现TF-IDF :这需要中每个文档的词频和我想要匹配的组合训练集。但是，为了简洁起见，我从相同的目录中循环上传每个文本

浏览 2提问于2015-08-11得票数 1

2回答

如何在安卓中使用MediaCodec Api解码RTP上的H264

、、、

在发送端，我使用安卓手机捕获视频，获取H264帧并按照各自的RFC ->RFC 3984将它们打包成RTP包。发送端没有问题。流由VLC接收并播放。谢谢。

浏览 0提问于2013-12-17得票数 5

4回答

我必须安装pyspark-cassandra-connector，它在中可用，但我遇到了巨大的问题和错误，并且没有关于python的spark的支持文档，这称为pyspark！我想知道pyspark-cassandra-connector包是失效了还是别的什么？另外，我需要清楚的git克隆pyspark- cassandra -connector包的一步一步的教程，安装和导入到pyspark shell中，并与cassandra成功连

浏览 2提问于2017-04-19得票数 0

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 .option("inferSchema", "true") .csv(file_pa

浏览 16提问于2020-05-11得票数 0

1回答

如何制作交叉验证数据集

、、、

我想对机器学习算法进行交叉验证，但又想检查每次迭代的模型估计。你知道pyspark上是否有一个函数可以让我创建k倍的数据集吗？我需要k倍数据集来运行每个算法并输出变量估计。例如，如果它是5倍的CV，我需要准备好5个数据集，以便针对算法运行。

浏览 22提问于2021-01-06得票数 0

1回答

PySpark如何在构建推荐器时合并用户项目功能？

、、、

PySparks mllib包提供了训练()和训练隐式()方法，分别用于训练显式和隐式数据上的推荐模型。u1, i1, 1 u1, i2, 1 u2, i2, 1 u2, i3, 1 ... un, im, 1 其中u表示用户，i表示项。但我不能在pyspark.mllib

浏览 0提问于2017-03-18得票数 1

2回答

Pyspark dataframe到pandas的转换会丢弃数据吗？

、

开始时，我有一个pyspark dataframe，其中包含ids集的成对相似性。我喜欢按ID_A对其进行分组，按EuclideanDistance对每组进行排序，并且只获取每组的前N对。结果”数据帧中。尽管它仍然在result1中)。在此转换链中是否存在可能导致数据丢失的问题？

浏览 1提问于2018-05-02得票数 0

3回答

比较空字符和字符抛出异常

、

为什么下面的代码会抛出一个NPE？if(c == ' ') { }

浏览 1提问于2018-05-09得票数 3

6回答

如何融化火花DataFrame？

、、、

在PySpark或至少在Scala中，Apache中是否存在类似于Pandas功能的？到目前为止，我在Python中运行了一个示例数据集，现在我想对整个数据集使用Spark。

浏览 20提问于2017-01-16得票数 63

回答已采纳

1回答

机器学习算法导致电火花算法的精度低。

、、、、

我使用数据集和机器学习算法，根据87个特征(列)对75个网络流量类进行分类。数据集由3.577.296个实例(行)组成。首先对标签进行索引，对具有连续值的列进行标准化，应用特征选择，然后使用ML算法进行分类: Logistic回归、随机森林、决策树和朴素基。所有算法的精度都很低(在NV中使用DT & 0.005 )为0.59。这些低准确度背后的原因是什么？拜托我需要帮助。

浏览 8提问于2022-02-13得票数 -1

点击加载更多