腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
将
150个
csv
摄取到一个
数据
源
、
、
你好,我是一个全新
的
处理大
数据
的
新手,在python
中
我有150个
csv
,每个大小为70MB,我必须将其集成到一个源
中
,以删除基本
的
统计
数据
,如唯一
的
计数,唯一
的
名称等等。我偶然发现了python
中
的
一个包'pyelastic search‘,这对我来说是多么
的
可行。 需要建议!
浏览 11
提问于2017-06-16
得票数 2
回答已采纳
1
回答
将
抓取
的
数据
移
动到
CSV
文件
中
、
、
、
两个部分
的
问题...(请记住,我是webscraping和BSoup
的
新手!)我能够创建一段代码来捕获论坛上帖子
的
主题。但到目前为止,它只
抓取
了论坛第一页
的
内容。我希望它能够一次
抓取
所有页面,但不是很确定如何去做。我在网上读到,当URL稍有变化时,您可以将其更改为遍历多个页面。我希望
抓取
的
url是:和Page2是原始
的
url + "&page=2“会像这样工作吗?:base_url + "&page
浏览 17
提问于2017-07-14
得票数 1
回答已采纳
1
回答
用火花变换红
移
表
、
、
、
、
我试图在当前红
移
表
的
基础上创建一个红
移
表,我有一个脚本执行以下步骤:
将
红
移
表按块加载到熊猫
数据
中
,以避免每次夹子
中
的
内存错误,我对
数据
进行纠结,并将
CSV
文件
输出到S3Run S3 Copy命令
中
,
将
文件
移
动到
这种方法非常慢,因为当
将
数据
加载到熊猫
数据
时,
浏览 1
提问于2021-05-06
得票数 0
1
回答
如何有效地
将
数据
从Postgres传输到Amazon?
、
、
、
在我
的
机器上,我
的
本地Postgres
数据
库中有这么多
数据
。我需要对这个本地
数据
库
中
的
数据
进行反分类,并获得一个特定格式
的
查询集,该查询集可以使用Python直接加载到红
移
表
中
。我确实有一些查询,可以在本地
数据
库上运行,并获得需要直接加载到红
移
的
特定格式
的
查询集。 但是有这么多
的
数据
,我需要从
浏览 2
提问于2019-10-09
得票数 2
回答已采纳
1
回答
如何检查AWS S3
的
红
移
复制命令性能?
、
、
我正在开发一个应用程序,在这个应用程序
中
,我将将
数据
加载到红
移
中
。对于每一次这样
的
迭代,我都需要将
数据
加载到20表
中
。现在,我正在创建20
CSV
文件
,以便
将
数据
加载到20表
中
,在每次迭代时,20创建
的
文
浏览 4
提问于2019-11-10
得票数 2
回答已采纳
2
回答
从PostgreSQL到AWS S3
的
数据
移动和RedShift频谱分析
、
、
、
、
我有大量不同模式
的
PostgreSQL表,以及其中
的
大量
数据
。 我现在无法进行
数据
分析,因为
数据
量相当大--一些TB
的
数据
和PostgreSQL无法在合理
的
时间内处理查询。我正在考虑以下方法--我将使用Apache处理我
的
所有PostgreSQL表,加载DataFrames并将它们存储为AWS S3
中
的
Parquet
文件
。然后,我将使用RedShift谱来查询存储在这些拼花
浏览 0
提问于2018-11-05
得票数 1
回答已采纳
1
回答
如何利用红
移
谱在S3
中
查看
数据
目录表
、
、
我不想创建外部表,因为我将在aws glue
中
创建一个结合
数据
目录
中
的
外部表
的
视图。我在
数据
目录
中
创建表时使用了aws glue crawler。它们是json格式
的
。如果我使用
的
作业将在redshift中上传此
数据
,它们将作为平面
文件
(数组除外)加载到redshift表
中
。,输出
将
类似于(如表所示) 现在,我已经在
数据
目录
浏览 5
提问于2018-06-05
得票数 0
1
回答
如何在上创建列jsonb
、
我
的
演示
数据
库里有张桌子。NULL, coordinates super NOT NULL,); 当
将
表复制到
浏览 0
提问于2021-11-28
得票数 0
2
回答
Python
将
数据
从Redshift加载到S3
、
、
、
我正在尝试
将
一些红
移
查询结果加载到S3。aws_secret_access_key = 'xxx', subdirectory = 'dir')group by provider, provider_code; df = pr.redshift_to_pandas(sql_statement)
浏览 6
提问于2017-10-30
得票数 0
回答已采纳
1
回答
从s3复制大型
csv
文件
到红
移
的
最佳方法是什么?
、
、
、
、
我正在执行一项任务,
将
csv
文件
从s3桶复制到红
移
。我已经找到了多种方法来做这件事,但我不确定哪一种是最好
的
方法。下面是一个场景: 在正常间隔内,大小约为500 MB -1GB
的
多个
CSV
文件
将被添加到我
的
s3桶
中
。
数据
可以包含重复项。任务是
将
数据
复制到红
移
表,同时确保红
移
中
不存在重复
的
<em
浏览 5
提问于2020-03-13
得票数 0
1
回答
将
pg_dump从s3加载到红
移
、
、
我正在尝试
将
一个完整
的
数据
库转储加载到Redshift
中
。是否有一个命令可以
将
生活在pg_dump上
的
s3
中
的
数据
恢复到Redshift
中
?如果没有,解决这一问题
的
最佳步骤是什么? 谢谢
浏览 3
提问于2017-11-30
得票数 2
回答已采纳
1
回答
使用Redshift
的
Ignoreheader
CSV
文件
我正在
将
一个
CSV
文件
复制到一个红
移
表
中
,但是我一直收到一个错误,因为它推断出了
csv
文件
的
头。有没有办法在
将
csv
文件
加载到redshift
中
时忽略头
文件
。我是新来
的
红
移
,所以所有的帮助将不胜感激。下面是我
的
copy语句: copy db.table1 from 's3://pa
浏览 46
提问于2019-12-09
得票数 1
2
回答
通过添加新列向
csv
添加
数据
、
、
、
我想使用python
中
的
pandas模块,
将
一些来自红
移
表
的
数据
附加到
csv
文件
中
。通过python,我可以使用psycopg2模块成功地连接和检索红
移
表
中
的
行。现在,我在
csv
上存储按日期划分
的
数据
。因此,我需要首先在
csv
中
创建一个新
的
date列,然后追加在该新列
浏览 8
提问于2021-07-30
得票数 0
回答已采纳
3
回答
删除Oracle表
的
大量行
、
我有一个公司
的
数据
表,它是250 35
的
,有35列。我需要删除大约215 to
的
数据
,这显然是要从表
中
删除
的
大量行。此表没有,没有主键。请建议我使用Oracle最快
的
方法。
浏览 5
提问于2012-08-09
得票数 0
回答已采纳
2
回答
是“插入选择”,不受红
移
中
的
竞赛条件影响。
、
、
、
我们有一个
数据
仓库系统,需要将s3上以
csv
格式显示
的
数据
加载到红
移
表
中
。唯一
的
限制是只有唯一
的
记录被插入红
移
。创建一个临时表。
将
S3
文件
复制到TEMOPRARY表
中
。开始交易 插入到{主红
移
表} select从列上
的
{连接在暂存表和主红
移
表之间,该表应该是唯一
的
浏览 2
提问于2016-05-09
得票数 0
2
回答
使用火花红
移
插入红
移
、
、
我正在尝试从S3 (拼花
文件
)
中
插入红移
数据
。通过SQLWorkbench完成它,600万行需要46秒。但通过连接器
的
火花红
移
,它需要大约7分钟。val df = spark.read.option("basePath", "s3a://parquet/ite
浏览 0
提问于2018-02-07
得票数 3
回答已采纳
4
回答
红
移
频谱
的
性能问题
、
、
、
我使用
的
是红
移
频谱。我创建了一个外部表,并在S3上上传了一个包含大约550万条记录
的
csv
数据
文件
。如果在这个外部表上执行查询,大约需要15秒,而如果我在Amazon redshift上运行相同
的
查询,我在大约2秒内就会得到相同
的
结果。当AWS声称它是非常高性能
的
平台时,这种性能滞后
的
原因可能是什么?请使用spectrum建议相同性能
的
解决方案。
浏览 24
提问于2017-07-06
得票数 2
回答已采纳
1
回答
使用python
将
数据
插入红
移
、
、
、
我试图
将
多个行插入到amazon
数据
库
中
,这些行包含在一个元组列表
中
,如下所示:某些列可能包含None 我用这种方式将它们逐行插入Redshift
数据
库所以,我
的
问题是:插
浏览 1
提问于2018-03-30
得票数 0
1
回答
Redshift不承认新加载
的
数据
是预先排序
的
我正试图
将
非常大量
的
数据
装入红移到一个单一
的
表,这将是成本太高,无法真空一旦加载。为了避免对此表进行真空,我使用COPY命令从大量预先排序
的
CSV
文件
中加载
数据
。我正在加载
的
文件
是根据表
中
定义
的
排序键预先排序
的
。 但是,在加载前两个
文件
之后,我发现redshift
将
表报告为未排序
的
大约50%。我已经验证了这些<
浏览 2
提问于2016-10-09
得票数 1
回答已采纳
3
回答
如何用python从excel表格中提取不同
的
表格
、
、
、
在一个excel
文件
中
,sheet 1在sheet .How
中
的
不同位置有4个表格,用于读取这4个表格。例如,我甚至添加了一张来自谷歌
的
图片以供参考。在不使用索引
的
情况下,是否有其他方法可以提取表。
浏览 4
提问于2021-09-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用 Python 将数据写到 CSV 文件
数据库中数据导出到csv文件中
python如何读取CSV文件中的特定行数据
CSV文件在Python中的几种处理方式
如何解析字段中包含逗号(,)的csv文件
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券