腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用连接并从Oracle获取数据
、
、
、
、
我想从Oracle检索数据,并将数据转储到Amazon 3.我想使用Apache来完成它。我还知道,我也可以使用简单的Java来做同样的事情,我应该选择吗?这两种方法各自的优点是什么?
浏览 3
提问于2016-09-28
得票数 0
回答已采纳
1
回答
谷歌的数据流和谷歌的
数据处理
有什么不同?
、
DataFlow本身就有ETL,计算和流处理,为什么我们需要google的Dataproc?
浏览 15
提问于2017-08-16
得票数 1
1
回答
在没有执行者的情况下启动星火会话
、
我有一个用例,我需要使用一些星火的API,而不实际执行任何
数据处理
。例如:我想用
spark
.table(table_name).schema读取某些Hive表的模式。 .config("
spark
.executor.instances", "1") .config("
spark
.executor.cores", "1").config
浏览 7
提问于2022-08-28
得票数 0
1
回答
Spark
与Hive的区别
、
、
你能帮我理解星火SQl和蜂巢的区别吗?
浏览 2
提问于2017-06-04
得票数 1
2
回答
如何在Cloud Dataproc上安装Apache
Spark
的自定义版本
、
、
如何在安装自定义版本的
Spark
的同时保持与Cloud Dataproc工具的兼容性?
浏览 3
提问于2018-04-12
得票数 3
1
回答
如何使用python对数千行数据执行ETL?
、
、
、
、
我有一个pgAdmin数据库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g
浏览 4
提问于2020-04-10
得票数 0
1
回答
如何在Apache
Spark
中实现递归算法?
、
、
、
我有一个问题,我想在
Spark
中实现一个递归算法,并希望了解是否有任何建议可以在
Spark
中构建它,或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如,
spark
master),但假设目录结构非常
大
,具有O(十亿)个叶节点。对于使用
Spark
或其他框架/
数据处理
技术构建递归/迭代类型的数据管道,有什么建议吗?
浏览 37
提问于2021-06-24
得票数 0
1
回答
我怎样才能加快GCP的数据采集(Datapipeline)?
、
大约300吨的数据正在使用Google平台数据集(选项: dev)传输到
大
查询中。感谢您的阅读。
浏览 1
提问于2020-10-19
得票数 2
回答已采纳
1
回答
将
Spark
处理的中间数据复制到目标S3时出现的AWS性能问题
目前我正在使用AWS电子病历进行
数据处理
。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中,以便客户运行Analytics。
Spark
创建了一个用于
数据处理
的中间文件夹,我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。
spark
.conf.set('
spark
.sql.sources.partitionOverwriteMode', 'dynamic
浏览 2
提问于2020-10-04
得票数 0
1
回答
Pyspark能否使用JDBC传递Alter Table
、
、
、
我知道我可以使用
spark
.read.jdbc传递查询,但在本例中,我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。
浏览 22
提问于2020-06-02
得票数 0
回答已采纳
2
回答
Hadoop (Mapr) - AddFile如何工作
、
假设我在hdfs上有10个目录,它包含了我想用
spark
处理的100多个文件。--这要求文件在集群中的所有节点上都可用,这对于本地模式来说并不是什么问题。在分布式模式下,您将希望使用
Spark
的addFile功能将文件复制到群集.中的所有机器上。 我无法理解这一点,会在每个节点上激发文件的创建副本。
浏览 2
提问于2014-04-21
得票数 2
1
回答
错误火花-装配-1.4.1-hadoop2.6.0.jar不存在
我在用--class com.my.application.XApp 1000 诊断: file:/Users/nish1013/Dev/
spark
-1.4.1-bin-hadoop2.6/lib/
浏览 3
提问于2015-12-21
得票数 0
1
回答
PC上的大量数据?
、
、
我能用
spark
来做这个吗?有什么建议可以在我的电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
为什么我们不在
spark
中使用hadoop可写数据类型呢?
、
、
、
、
在hadoop中,我们不使用java序列化,因为它体积
大
,速度慢。因此hadoop提供了与java序列化相比
快速
的Writable。在
spark
中,默认情况下我们使用java序列化,如果我们不想使用java序列化,则可以使用Kryo序列化。我的问题是,为什么不能(不)在
spark
中使用hadoop序列化呢?,因为我们知道它是紧凑和
快速
的。
浏览 3
提问于2020-02-27
得票数 1
1
回答
在Python中挖掘大型文件(1 GB+)文本的最佳方法是什么?
、
问题: 分批?地图/缩减?哈杜奥普?使用数据库而不是Python?
浏览 1
提问于2015-01-21
得票数 0
1
回答
:它是为了激发sql还是火花流?
、
、
、
星星之火的概念是否进入了
spark
或
Spark
。传统上,数据访问似乎属于
Spark
。但是,纠正我的错误,
数据处理
似乎也能够处理实时数据,所以我进入了这个问题。
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
2
回答
pyspark和
spark
之间的记忆差异?
、
、
我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了
spark
-shell和PySpark,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn.
spark
-shell版本可以工作,而PySpark版本显示了相同的运行PySpark有那么
大
的开销吗?或者这是binaryFiles是新的问题吗?我使用的是
Spark
版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
DC/OS上的Mesos主配置
、
、
我正在为运行Kafka->
Spark
->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3
大
型实例。
浏览 3
提问于2016-05-17
得票数 2
回答已采纳
1
回答
读取Avro文件,一次一行。Python
、
上下文:我想把Avro文件读入
Spark
作为RDD。我想知道,如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件。 我正在使用pyspark来编写我的
spark
作业。
浏览 1
提问于2015-12-12
得票数 1
2
回答
Spark
应用程序作为Rest服务
我有一个关于
spark
应用程序用法的问题。因此,我希望我们的
Spark
应用程序作为REST API Server运行,就像Spring Boot应用程序一样,因此它不会是批处理过程,相反,我们将加载应用程序,然后我们希望保持应用程序的活动状态(不调用
spark
.close()),并通过我们将定义的一些应用程序接口将应用程序用作实时查询引擎。
浏览 1
提问于2020-09-01
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Waterdrop帮你快速玩转Spark数据处理
Spark计算引擎:Spark数据处理模式详解
Spark快速入门-2-Spark的编程模型
Spark的数据处理模型是什么,它与传统MapReduce有何不同?
快速云:大数据处理流程有哪些?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券