将抓取的数据移动到CSV文件中

、、

你好，我是一个全新的处理大数据的新手，在python中我有150个csv，每个大小为70MB，我必须将其集成到一个源中，以删除基本的统计数据，如唯一的计数，唯一的名称等等。我偶然发现了python中的一个包'pyelastic search‘，这对我来说是多么的可行。需要建议！

浏览 11提问于2017-06-16得票数 2

回答已采纳

1回答

、、、

两个部分的问题...(请记住，我是webscraping和BSoup的新手！)我能够创建一段代码来捕获论坛上帖子的主题。但到目前为止，它只抓取了论坛第一页的内容。我希望它能够一次抓取所有页面，但不是很确定如何去做。我在网上读到，当URL稍有变化时，您可以将其更改为遍历多个页面。我希望抓取的url是：和Page2是原始的url + "&page=2“会像这样工作吗？：base_url + "&page

浏览 17提问于2017-07-14得票数 1

回答已采纳

1回答

用火花变换红移表

、、、、

我试图在当前红移表的基础上创建一个红移表，我有一个脚本执行以下步骤：将红移表按块加载到熊猫数据中，以避免每次夹子中的内存错误，我对数据进行纠结，并将CSV文件输出到S3Run S3 Copy命令中，将文件移动到这种方法非常慢，因为当将数据加载到熊猫数据时，

浏览 1提问于2021-05-06得票数 0

1回答

如何有效地将数据从Postgres传输到Amazon？

、、、

在我的机器上，我的本地Postgres数据库中有这么多数据。我需要对这个本地数据库中的数据进行反分类，并获得一个特定格式的查询集，该查询集可以使用Python直接加载到红移表中。我确实有一些查询，可以在本地数据库上运行，并获得需要直接加载到红移的特定格式的查询集。但是有这么多的数据，我需要从

浏览 2提问于2019-10-09得票数 2

回答已采纳

1回答

如何检查AWS S3的红移复制命令性能？

、、

我正在开发一个应用程序，在这个应用程序中，我将将数据加载到红移中。对于每一次这样的迭代，我都需要将数据加载到20表中。现在，我正在创建20 CSV文件，以便将数据加载到20表中，在每次迭代时，20创建的文

浏览 4提问于2019-11-10得票数 2

回答已采纳

2回答

从PostgreSQL到AWS S3的数据移动和RedShift频谱分析

、、、、

我有大量不同模式的PostgreSQL表，以及其中的大量数据。我现在无法进行数据分析，因为数据量相当大--一些TB的数据和PostgreSQL无法在合理的时间内处理查询。我正在考虑以下方法--我将使用Apache处理我的所有PostgreSQL表，加载DataFrames并将它们存储为AWS S3中的Parquet文件。然后，我将使用RedShift谱来查询存储在这些拼花

浏览 0提问于2018-11-05得票数 1

回答已采纳

1回答

如何利用红移谱在S3中查看数据目录表

、、

我不想创建外部表，因为我将在aws glue中创建一个结合数据目录中的外部表的视图。我在数据目录中创建表时使用了aws glue crawler。它们是json格式的。如果我使用的作业将在redshift中上传此数据，它们将作为平面文件(数组除外)加载到redshift表中。，输出将类似于(如表所示) 现在，我已经在数据目录

浏览 5提问于2018-06-05得票数 0

1回答

如何在上创建列jsonb

、

我的演示数据库里有张桌子。NULL, coordinates super NOT NULL,); 当将表复制到

浏览 0提问于2021-11-28得票数 0

2回答

Python将数据从Redshift加载到S3

、、、

我正在尝试将一些红移查询结果加载到S3。aws_secret_access_key = 'xxx', subdirectory = 'dir')group by provider, provider_code; df = pr.redshift_to_pandas(sql_statement)

浏览 6提问于2017-10-30得票数 0

回答已采纳

1回答

从s3复制大型csv文件到红移的最佳方法是什么？

、、、、

我正在执行一项任务，将csv文件从s3桶复制到红移。我已经找到了多种方法来做这件事，但我不确定哪一种是最好的方法。下面是一个场景：在正常间隔内，大小约为500 MB -1GB的多个CSV文件将被添加到我的s3桶中。数据可以包含重复项。任务是将数据复制到红移表，同时确保红移中不存在重复的<em

浏览 5提问于2020-03-13得票数 0

1回答

将pg_dump从s3加载到红移

、、

我正在尝试将一个完整的数据库转储加载到Redshift中。是否有一个命令可以将生活在pg_dump上的s3中的数据恢复到Redshift中？如果没有，解决这一问题的最佳步骤是什么？谢谢

浏览 3提问于2017-11-30得票数 2

回答已采纳

1回答

使用Redshift的Ignoreheader CSV文件

我正在将一个CSV文件复制到一个红移表中，但是我一直收到一个错误，因为它推断出了csv文件的头。有没有办法在将csv文件加载到redshift中时忽略头文件。我是新来的红移，所以所有的帮助将不胜感激。下面是我的copy语句： copy db.table1 from 's3://pa

浏览 46提问于2019-12-09得票数 1

2回答

通过添加新列向csv添加数据

、、、

我想使用python中的pandas模块，将一些来自红移表的数据附加到csv文件中。通过python，我可以使用psycopg2模块成功地连接和检索红移表中的行。现在，我在csv上存储按日期划分的数据。因此，我需要首先在csv中创建一个新的date列，然后追加在该新列

浏览 8提问于2021-07-30得票数 0

回答已采纳

3回答

删除Oracle表的大量行

、

我有一个公司的数据表，它是250 35的，有35列。我需要删除大约215 to的数据，这显然是要从表中删除的大量行。此表没有，没有主键。请建议我使用Oracle最快的方法。

浏览 5提问于2012-08-09得票数 0

回答已采纳

2回答

是“插入选择”，不受红移中的竞赛条件影响。

、、、

我们有一个数据仓库系统，需要将s3上以csv格式显示的数据加载到红移表中。唯一的限制是只有唯一的记录被插入红移。创建一个临时表。将S3文件复制到TEMOPRARY表中。开始交易插入到{主红移表} select从列上的{连接在暂存表和主红移表之间，该表应该是唯一的

浏览 2提问于2016-05-09得票数 0

2回答

使用火花红移插入红移

、、

我正在尝试从S3 (拼花文件)中插入红移数据。通过SQLWorkbench完成它，600万行需要46秒。但通过连接器的火花红移，它需要大约7分钟。val df = spark.read.option("basePath", "s3a://parquet/ite

浏览 0提问于2018-02-07得票数 3

回答已采纳

4回答

红移频谱的性能问题

、、、

我使用的是红移频谱。我创建了一个外部表，并在S3上上传了一个包含大约550万条记录的csv数据文件。如果在这个外部表上执行查询，大约需要15秒，而如果我在Amazon redshift上运行相同的查询，我在大约2秒内就会得到相同的结果。当AWS声称它是非常高性能的平台时，这种性能滞后的原因可能是什么？请使用spectrum建议相同性能的解决方案。

浏览 24提问于2017-07-06得票数 2

回答已采纳

1回答

使用python将数据插入红移

、、、

我试图将多个行插入到amazon数据库中，这些行包含在一个元组列表中，如下所示：某些列可能包含None 我用这种方式将它们逐行插入Redshift数据库所以，我的问题是:插

浏览 1提问于2018-03-30得票数 0

1回答

Redshift不承认新加载的数据是预先排序的

我正试图将非常大量的数据装入红移到一个单一的表，这将是成本太高，无法真空一旦加载。为了避免对此表进行真空，我使用COPY命令从大量预先排序的CSV文件中加载数据。我正在加载的文件是根据表中定义的排序键预先排序的。但是，在加载前两个文件之后，我发现redshift将表报告为未排序的大约50%。我已经验证了这些<

浏览 2提问于2016-10-09得票数 1

回答已采纳

3回答

如何用python从excel表格中提取不同的表格

、、、

在一个excel文件中，sheet 1在sheet .How中的不同位置有4个表格，用于读取这4个表格。例如，我甚至添加了一张来自谷歌的图片以供参考。在不使用索引的情况下，是否有其他方法可以提取表。

浏览 4提问于2021-09-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将150个csv摄取到一个数据源