pyspark在for循环下的每个进程后附加非常大的多个数据帧(例如: append after daily ETL)

pyspark是一个用于大规模数据处理的Python库，它提供了分布式计算的能力，可以在集群上并行处理数据。在for循环下，如果需要将非常大的多个数据帧附加到pyspark中，可以使用以下方法：

使用DataFrame的union方法：可以将多个数据帧按行合并成一个新的数据帧。在for循环中，每次迭代时将新的数据帧与之前的数据帧进行合并，最终得到一个包含所有数据的数据帧。示例代码如下：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
final_df = None

for df in data_frames:
    if final_df is None:
        final_df = df
    else:
        final_df = final_df.union(df)

final_df.show()

使用RDD的union方法：如果数据帧无法直接合并，可以将数据帧转换为RDD，然后使用RDD的union方法进行合并。示例代码如下：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
final_rdd = None

for df in data_frames:
    rdd = df.rdd
    if final_rdd is None:
        final_rdd = rdd
    else:
        final_rdd = final_rdd.union(rdd)

final_df = spark.createDataFrame(final_rdd, schema)
final_df.show()

需要注意的是，使用union方法进行数据合并可能会导致性能问题，特别是在数据量非常大的情况下。如果可能的话，可以考虑优化算法或使用其他更高效的方法来处理数据。

对于每个进程附加非常大的多个数据帧，可以考虑以下优化策略：

分批处理：将数据分成多个批次，每次处理一部分数据，然后将结果合并。这样可以减少内存的使用，并且可以更好地利用集群资源。
数据压缩：如果数据量非常大，可以考虑使用数据压缩算法来减少数据的存储空间和传输成本。pyspark支持多种数据压缩格式，如gzip、snappy等。
数据分区：将数据按照某个字段进行分区，可以提高查询和处理的效率。可以使用DataFrame的repartition方法或RDD的repartition方法进行数据分区。
使用持久化存储：如果数据需要多次使用，可以将数据持久化到磁盘上，以便后续的处理。可以使用DataFrame的persist方法或RDD的persist方法进行数据持久化。
调整资源配置：根据实际情况，可以调整Spark集群的资源配置，如内存分配、并行度等，以提高处理性能。

对于pyspark的应用场景，它适用于大规模数据处理和分析的场景，特别是在需要并行处理和分布式计算的情况下。常见的应用场景包括：

大数据处理和分析：pyspark可以处理大规模的结构化和非结构化数据，支持复杂的数据处理和分析任务，如数据清洗、特征提取、机器学习等。
实时数据处理：pyspark可以与流式数据处理框架（如Apache Kafka、Apache Flink等）集成，实现实时数据处理和流式计算。
数据仓库和数据湖：pyspark可以与各种数据存储系统（如Hadoop、Hive、HBase等）集成，用于构建和管理数据仓库和数据湖。
日志分析和监控：pyspark可以处理大量的日志数据，进行实时的日志分析和监控，帮助企业发现问题和优化系统性能。
推荐系统和个性化推荐：pyspark可以应用于构建推荐系统和个性化推荐算法，帮助企业提供个性化的产品和服务。

腾讯云提供了一系列与pyspark相关的产品和服务，包括：

腾讯云EMR（Elastic MapReduce）：基于开源的Hadoop和Spark生态系统构建的大数据处理平台，提供了pyspark的支持。详情请参考：腾讯云EMR产品介绍
腾讯云COS（Cloud Object Storage）：可扩展的对象存储服务，适用于存储和管理大规模的结构化和非结构化数据。详情请参考：腾讯云COS产品介绍
腾讯云SCF（Serverless Cloud Function）：无服务器计算服务，可以按需运行pyspark代码，无需管理服务器和基础设施。详情请参考：腾讯云SCF产品介绍

以上是关于pyspark在for循环下附加非常大的多个数据帧的完善且全面的答案。

页面内容是否对你有帮助？

有帮助

没帮助

pyspark在for循环下的每个进程后附加非常大的多个数据帧(例如: append after daily ETL)

、、

我每天都要做ETL，然后把它添加到一个数据帧中。例句:每天过后，ETL的输出如下。 df1: id category quantity date 1 abc 100 01-07-18 2 deg 175 01-07-18 ..... df2: id category quantity date 1 abc 50 02-07-18 2 deg 300 02-07-18 3 zzz 250 02-07-18 ..

浏览 0提问于2018-07-13得票数 0

1回答

导入pyspark ETL模块并使用pything子进程作为子进程运行时出错

、

我正在尝试使用导入模块和子流程从一个main.py python脚本动态调用pyspark模块列表。我尝试调用的子模块没有返回任何内容，它只是执行其ETL操作。我希望我的main.py程序等待到子进程完成。在下面的代码中，每次我试图调用子进程时，都会出现错误"TypeError：'NoneType‘object is not iterable“。另一个问题是，在启动subprocess.Popen之后，我认为流将继续在main.py to next行中继续，直到它到达j1.wait()，但是立即的打印语句( print ("etl_01_job is running&

浏览 12提问于2021-04-18得票数 7

回答已采纳

1回答

如何将dataframe列转换为字典

、

首先，我要预先感谢大家的帮助！我有4张桌子，我加入了它们，得到了一个PySpark数据。其中一个dataframe列如下所示，它有大约20万条记录： {"table_name":"BTR.DAILY_BTR.JSC_MON","login":"0015471"} {"table_name":"BTR.DAILY_BTR.ESHOP.JSC_MON","login":"0015471"} 该列的类型为“string”。我需要通过key table_name获得价值。我尝

浏览 4提问于2022-04-26得票数 0

1回答

如何在填充Pandas DataFrame时处理异常？

、、、、

我正在尝试用历史上每小时的天气数据填充数据帧。通过调用DarkSky接口完成。但是，有时某些字段会丢失并显示KeyError。下面是API每小时发回的内容： 'summary': 'Mostly cloudy throughout the day.', 'icon': 'partly-cloudy-day', 'data': [{ 'time': 1528354800, 'summary': 'Partly Cloudy', 'icon&

浏览 6提问于2019-06-19得票数 0

1回答

Spark混合动态/静态分区

、、、

在使用pyspark时，已经能够混合静态和动态分区了吗？我想做的是执行动态分区，然后将最细粒度的分区级别设置为静态。静态分区将是ETL作业的标识符，这意味着它必须是静态分区，除非我事先将其作为列添加到数据框中的每条记录中。我现在所拥有的是以下内容。它可能不是最优的，因此欢迎推荐。 dataFrame.repartition('year','month','day','hour').write.partitionBy('year','month','day','hour

浏览 1提问于2018-04-10得票数 0

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

2回答

在将PySpark数据帧写入Azure Synapse时面临的问题

、、、、

我在Azure Databricks中有一个PySpark数据帧。我想写入Azure Synapse。但是我的误差越来越小了。 com.microsoft.sqlserver.jdbc.SQLServerException: The statement failed. Column 'ETL_TableName' has a data type that cannot participate in a columnstore index. 我检查了Synapse .All的连接是否正常，我可以读取数据了。但是在写作的时候，我遇到了一些问题。有谁能帮我处理这个错

浏览 1提问于2020-07-03得票数 3

2回答

按创建日期获取不同的行

、、

浏览 14提问于2019-05-16得票数 0

回答已采纳

1回答

pyspark:在连接期间通过dataframe引用列

、、

我正在尝试连接两个这样的pyspark数据帧 joined = df.join(df1,on=["date"],how='left').select([col('df.'+xx) for xx in df.columns] + [col('df1.daily_net_payment_sum'),col('df1.daily_net_payment_avg')]) 但它会导致 An error was encountered: "cannot resolve '`df.cust_no`' g

浏览 15提问于2021-04-17得票数 0

回答已采纳

1回答

Pyspark Luigi多个工作进程问题

、、、、

我想使用Luigi工作流并行加载spark data frame中的多个文件，并将它们存储在字典中。一旦所有的文件都被加载，我希望能够从main中的字典中访问这些数据帧，然后进一步执行processing.This进程。当我运行Luigi时，一个运行Luigi的worker.if与多个工作人员一起运行Luigi时，此变量在main方法中为空。任何建议都会有帮助。 import Luigi from Luigi import LocalTarget from pyspark import SQLContext from src.etl.SparkA

浏览 9提问于2021-05-18得票数 1

1回答

在Airflow DAG上创建Dataproc Cluster时，如何使用PIP安装软件包？

、、、、

我创建了一个DAG，它是这样编写的： from datetime import datetime as dt, timedelta, date from airflow import models, DAG from airflow.contrib.operators.dataproc_operator import DataprocClusterCreateOperator, DataProcPySparkOperator, \ DataprocClusterDeleteOperator from airflow.contrib.operators.gcs_to_bq imp

浏览 13提问于2020-06-20得票数 2

1回答

将txt文件作为PySpark数据帧读取

、

我想将txt读取为PySpark数据帧，它由不均匀的空格分隔。我试着用一个空格分隔，但没有正确对齐。示例TXT输入： id daily_date day_of_week fiscal_week fiscal_month fiscal_year yearweek 1 2010-01-03 0 1 1 2010 201001 2 2010-01-04 1 1 1 2010 201001 3 2010-01-05 2 1 1 2010 201001 4 2010-01-06 3 1 1 2010

浏览 8提问于2021-01-18得票数 0

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

pyspark在所有执行器上均匀地拆分负载

、、、、

我有一个5节点集群，我正在使用pyspark将一个100k的csv文件加载到一个dataframe中，并执行一些etl操作，并将输出写入到一个parquet文件中。当我加载数据帧时，如何在每个执行器处理20k记录的所有执行器0上均匀地划分数据集。

浏览 2提问于2017-10-06得票数 1

1回答

按日期/时间计算和汇总数据

、、、

浏览 6提问于2019-02-05得票数 0

回答已采纳

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

如何将pyspark dataframe写入HDFS，然后如何将其读回dataframe？

、、、、

我有一个非常大的pyspark数据帧。所以我想对它的子集执行预处理，然后将它们存储到hdfs中。稍后，我想把它们全部读完并合并在一起。谢谢。

浏览 18提问于2017-06-01得票数 14

回答已采纳

1回答

如何使用(Python)执行开关语句

、、、、

我试图对我的数据执行一项操作，其中某个值将映射到一个预先确定的值的列表中，如果它符合其中一个标准，或者不匹配的话，则映射到一个落差值。这将是等效的SQL： CASE WHEN user_agent LIKE \'%CanvasAPI%\' THEN \'api\' WHEN user_agent LIKE \'%candroid%\' THEN \'mobile_app_android\' WHEN user_agent LIKE \'%iCanva

浏览 1提问于2016-04-19得票数 2

回答已采纳

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

、、、、

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-part-r-00000。让我知道我们是否可以在pyspark中做这件事？谢谢

浏览 19提问于2020-06-09得票数 1

1回答

TypeError：'JavaPackage‘对象不能在PySpark上调用，

、、、、

我在斯卡拉学过星火，但我对pySpark和AWS非常陌生，所以我遵循了AWS的官方教程。我成功地创建了开发端点，通过ssh连接到吡火花REPL并输入以下命令： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job glueContext = Glu

浏览 1提问于2019-02-08得票数 3

回答已采纳

1回答

在PySpark中写入增量表时如何使用Zorder集群？

、、、

按照我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将其转换为PySpark 我看到Scala代码是这样的： spark.read.table(connRandom) .write.format("delta").saveAsTable(connZorder) sql(s"OPTIM

浏览 4提问于2019-01-08得票数 2

回答已采纳

1回答

Logback在到达其最大大小后未创建新的日志文件

、、

我需要logback xml的工作配置，当我的logback创建xml时，一旦它达到文件的maxsize，那么它应该创建一个新的日志文件，而不是覆盖旧的日志，并且旧的文件应该被压缩。任何帮助都会非常感谢，谢谢，这是我已经尝试过的… contextName>ETL-SERVICE</contextName> <appender name="RootFileAppender" class="ch.qos.logback.core.rolling.RollingFileAppender"> <file>${catalina.b

浏览 12提问于2013-11-02得票数 0

1回答

Cloud Composer - DAG错误: java.lang.ClassNotFoundException:找不到数据源: bigquery

、、、

我正在尝试执行一个DAG，它在Cloud Composer上创建一个Dataproc集群。但它在尝试保存大查询时失败。我想这是缺少一个jar文件( --jars gs://spark-lib/bigquery/spark-bigquery-latest_2.12.jar)，但我不知道如何添加到我的代码中。代码： submit_job = DataprocSubmitJobOperator( task_id="pyspark_task", job=PYSPARK_JOB, location=REGION,

浏览 36提问于2021-10-29得票数 3

1回答

语言工作者如何使用Python在Azure函数中工作？

、、、、

我正在开发一个使用Azure函数的ETL项目，在这个项目中，我从blob存储中提取数据，转换Python和熊猫中的数据，并使用熊猫to_sql()加载数据。我试图通过使用异步和语言工作者来提高这个过程的效率。我有点困惑，因为我的印象是异步使用一个线程工作，但是Azure函数文档说，如果您更改配置，并且即使是不使用异步关键字的方法也可以在线程池中运行，则可以使用多个语言工作人员。这是否意味着如果我不使用异步关键字，那么我的方法将使用语言工作者并发运行吗？我是否必须使用异步操作来使用语言工作者？此外，文档还指出Azure函数可以扩展到多达200个实例。如果我最多只允许10名语言工作者，我如何

浏览 4提问于2020-05-08得票数 3

回答已采纳

2回答

在数据仓库中同步ETL和读取

、、、

我有下面的场景 ETL将数据加载到DW中。报表按需运行，可能与ETL同时运行，使用来自DW的数据。和我的问题：，我需要确保报告不包含部分数据：如果在ETL准备加载数据时正在运行报表，则ETL必须等待报表完成。如果正在加载ETL并请求报表，则报表必须等待ETL完成。如果ETL正在等待加载并请求报表，则报表必须等待ETL运行并完成- ETL始终比报表具有优先级。得到这些的最佳机制是什么？数据库锁似乎不够智能，无法管理我需要的优先级。我应该实施我自己的锁定机制吗？如果有，有什么著名的设计吗？必须考虑很多事情:跟踪当前运行的报告(锁换读)，在ETL无法

浏览 3提问于2012-08-21得票数 1

回答已采纳

3回答

大数据帧pyspark的show()子集

、、、、

我有一个很大的pyspark数据帧，我正在对它执行一些转换，并与其他数据帧连接。我想调查转换和连接是否成功，以及数据帧是否看起来像是预期的，但我如何显示数据帧的一小部分。我试过很多东西。 df.show(5) 和 df.limit(5).show() 但是，我尝试的所有操作都需要大量的作业，从而导致性能低下。我可以旋转一个非常大的集群，但是有没有一种方法可以快速地只获取数据帧的一小部分？

浏览 0提问于2019-11-20得票数 2

2回答

复杂数据管道迁移计划问题

、、、

我的计划：将所有数据处理移到星火(最好是PySpark)，最终输出(面向消费者)数据只转到Redshift。星星之火似乎能很好地连接到所有不同的源(Dynamo、S3、Redshift)。根据客户需求输出到Redshift/S3等。这避免了多个Redshift集群、损坏/过度使用内部不受支持的ETL工具、跨集群、视图和表等复制相同的数据(这是当前的设置)。使用Luigi构建一个网络用户界面，每天监控管道和可视化依赖树，并调度ETL。电子邮件通知也应该是失败的一种选择。另一种选择是AWS数据管道，但是，Luigi似乎有一个更好的UI来处理涉及许多依赖项的情况(有些树有5层深，但是使用

浏览 1提问于2018-09-20得票数 0

2回答

从pyspark中的一个非常大的数据帧中选择随机列

、

我有一个pyspark格式的dataframe，大约有150列。这些列是从连接不同的表中获得的。现在，我的要求是以特定的顺序将数据帧写入文件，例如，首先写入1到50列，然后是第90到110列，最后是第70和72列。也就是说，我只想选择特定的列，并重新排列它们。我知道其中一种方法是使用df.select(“给出你的列顺序”)，但在我的例子中，列非常大，不可能在“select”中写出每一个列的名称。请告诉我如何在pyspark中实现这一点。注意-我无法提供任何样本数据，因为列的数量非常大，并且在我的情况下，列号是主要的道路拦路器。

浏览 1提问于2017-07-14得票数 0

回答已采纳

1回答

如何在pyspark dataframe中不聚合地分组

、、、、

我有一个非常庞大的数据集，我需要使用pyspark dataframe。请参考数据的简化版本： product_type series_no product_amount date 514 111 20 2020/01/01 (YYYY/MM/DD) 514 111 30 2020/01/02 514 111 40 2020/01/03 514

浏览 30提问于2021-01-23得票数 0

回答已采纳

1回答

Pandas多索引多列级别1

、

我有以下示例数据集： ? 通过这段代码，我成功地将其加载到pandas数据帧中，并执行基本操作，如拥有每个配置文件的总天数和总成本。 import pandas as pd df = pd.read_excel('multiindex.xlsx', "0001",header=[0,1,2,3],index_col=[0,1,2]) print(df) print(df.axes[1]) print(df.axes[0]) df['Total days'] = df.groupby(axis = 1,level = 'Full

浏览 18提问于2021-04-06得票数 0

回答已采纳

1回答

是否有办法在EMR作业完成后自动删除检查点文件夹？

、、

我在我的pyspark代码中创建和使用检查点。由于我使用的是非常大的数据帧，因此随着时间的推移，它们的大小往往会膨胀。有没有办法在作业完成后删除检查点文件夹？例如，如下伪代码所示： from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() sc = spark.sparkContext spark.sparkContext.setCheckpointDir("s3://path/Checkpoint_Folder") df=spark.read.parquet("s

浏览 2提问于2021-05-02得票数 1

1回答

在AWS lambda函数上使用pyspark二进制文件时，错误Java网关进程在向驱动程序发送其端口号之前已退出

、、

我的lambda函数(python 3.6)有问题，lambda函数使用pyspark (spark-2.3.0-bin-hadoop2.7二进制文件)。由于pyspark二进制文件非常大(226MB的压缩文件)，我将其上传到S3存储桶中。lambda函数将文件解压到/tmp文件夹中。pyspark解压后，将对文件夹和文件授予权限： for root, dirs, filenames in os.walk(/tmp/spark): for d in dirs: os.chmod(os.path.join(root, d), 0o775) for f in fi

浏览 5提问于2018-05-02得票数 0

1回答

如何将数据帧转换为动态帧

、

我是AWS glue的新手，我正在尝试使用pyspark运行一些转换过程。我成功地运行了ETL，但我正在寻找另一种将数据帧转换为动态帧的方法。 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job glueContext = GlueContext(Sp

浏览 19提问于2021-11-10得票数 0

1回答

在追加模式下写入pyspark中的红移

、

我正在尝试使用pyspark将一个数据帧追加到redshift表中。我做错了什么？该表已经存在，并且已经包含一些数据。 myDf.write \ .format("com.databricks.spark.redshift") \ .option("url", JDBC_REDSHIFT) \ .option('forward_spark_s3_credentials', "true") \ .option("dbtable", MY_TABLE) \ .option("tempdir",&#

浏览 22提问于2019-01-16得票数 3

2回答

PySpark -逐行转换为JSON

、、、

我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串，然后将该字符串发布到Kafka主题。我最初使用的是以下代码。 for message in df.toJSON().collect(): kafkaClient.send(message) 但是，数据帧非常大，因此在尝试collect()时会失败。我在考虑使用UDF，因为它逐行处理它。 from pyspark.sql.functions import udf, struct def get_row(row): json = row.toJSON() kafkaCli

浏览 3提问于2018-01-31得票数 7

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

1回答

旋转一个流数据帧pyspark

、、、、

我有一个来自kafka的流式数据帧，我需要旋转两列。这是我目前使用的代码： streaming_df = streaming_df.groupBy('Id','Date')\ .pivot('Var')\ .agg(first('Val')) query = streaming_df.limit(5) \ .writeStream \ .outputMode("append") \ .form

浏览 16提问于2021-07-14得票数 1

回答已采纳

1回答

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

、

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入： df.show(20) Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。另一方面，在Dask中，当我做同样的事情时： df.head(20) Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间)，然后返回前20条记录。 Dask方法使得在非常大的数据集上快速迭代想法变得笨拙。有没有一种方法可以通过智能地返回足够的记录子集来提高Dask的响应性？

浏览 38提问于2018-06-03得票数 1

5回答

如何在pyspark环境下使用matplotlib和pandas进行绘图？

、、、、

我有一个非常大的pyspark数据帧，我取了一个样本，把它转换成pandas数据帧。 sample = heavy_pivot.sample(False, fraction = 0.2, seed = None) sample_pd = sample.toPandas() 数据帧如下所示： sample_pd[['client_id', 'beer_freq']].head(10) client_id beer_freq 0 1000839 0.000000 1 1002185 0.000000 2 1003366 1.0000

浏览 2提问于2018-05-09得票数 1

1回答

通过Spotify API调用创建PySpark数据帧

、、、、

我目前正在学习更多关于pySpark的知识，并想把spotify api数据放到一个spark dataframe中进行分析。我很熟悉如何在Pandas中做到这一点，并认为方法将是相似的，但我很快意识到情况并非如此。我已经检查了其他SO问题，但仍然没有找到适合我的方法。我目前拥有的代码如下所示： from spotipy.oauth2 import SpotifyClientCredentials, SpotifyOAuth import datetime import os from pyspark.sql import SparkSession, types from pyspark

浏览 0提问于2021-02-26得票数 1

4回答

划分不同DataFrames的两列

、、、

我正在使用Spark对用户日志文件进行探索性数据分析。我正在做的分析之一是每个主机每天的平均请求。因此，为了计算平均值，我需要将DataFrame的总请求列除以DataFrame的number唯一请求列。 total_req_per_day_df = logs_df.select('host',dayofmonth('time').alias('day')).groupby('day').count() avg_daily_req_per_host_df = total_req_per_day_df.select("d

浏览 30提问于2016-06-30得票数 4

回答已采纳

1回答

比较Pyspark数据帧的值(列表)

、、

我想对list_id列中的两个df1 df2数据帧进行比较： df1 = +---------+ | list_id| +---------+ |[1, 2, 3]| |[4, 5, 6]| |[7, 8, 9]| +---------+ df2 = +------------+ | list_id| +------------+ | [10, 3, 11]| |[12, 13, 14]| | [15, 6, 16]| +------------+ 期望的结果是： df2 = +-------------------+ | list_id| +-------

浏览 9提问于2019-10-01得票数 0

回答已采纳

1回答

优化两个大型pyspark数据帧的连接

、、、

浏览 9提问于2020-06-10得票数 2

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

2回答

如何在目标文件中EOF之前将源文件中的文本附加到目标文件中

、、

我有两个文件。文件1: source.sh文件2: destination.sh 我想将文件1的内容插入到文件2中，但我不想在文件的末尾插入内容。文件2的最后一行是"}“ 我想在"}“之前将文件1的内容插入到文件2中。 My精确代码： xxx_ecmwf_scoring_state_machine_arn = "${aws_sfn_state_machine.xxx_ecmwf_main_state_machine.id}" xxx_ecmwf_etl_state_machine_arn = "${aws_sfn_state_machine.xxx_

浏览 0提问于2020-04-02得票数 0

回答已采纳

1回答

如何在循环中创建一个pyspark DataFrame？

、

如何在循环中创建一个pyspark DataFrame？在这个循环中，在每次迭代中，我输出2个值print(a1,a2)。现在，我想将所有这些值存储在一个pyspark数据帧中。

浏览 26提问于2021-01-12得票数 0

1回答

嵌套使用后的Jquery

我想创建以下HTML： <div> <img src="random.png"> <input type="radio"> <input type="radio"> </div> 以下是jquery代码： $("#main").append( $("<div>").append( $("<img>").after( $("<input>&#

浏览 0提问于2015-06-01得票数 0

回答已采纳

0回答

在UDF中引用另一个数据帧时，如何引用该数据帧？

、、、、

当在另一个数据帧上执行UDF时，如何引用一个pyspark数据帧？这里有一个虚拟的例子。我正在创建两个数据帧scores和lastnames，每个数据帧中都有一个列，该列在两个数据帧中是相同的。在scores上应用的UDF中，我希望过滤lastnames并返回在lastname中找到的字符串。 from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * sc = SparkContext(&#

浏览 6提问于2016-12-30得票数 6

回答已采纳