hdfs大数据_云HDFS大促_云 HDFS新春大促 - 腾讯云开发者社区

、

我已经将数据文件上传到Dataproc项目的GCS桶中。现在，我想将该文件复制到HDFS。我怎么能这么做？

浏览 1提问于2019-01-29得票数 5

回答已采纳

1回答

如何在HBase中存储XML文件？

、、

我正在努力研究以下几种情况： <main_tag>名称值、年龄值、国家值</main_tag> 我希望上面的XML文件存储在HBase中。我们怎么做呢？在这两种场景中，我都不想最初使用HDFS。

浏览 1提问于2015-10-15得票数 2

1回答

HBase BulkLoad数据恢复

、、

由于Bulkload方法完全绕过了写路径，WAL不会作为该过程的一部分写入，那么在区域服务器发生故障/崩溃的情况下，如何恢复批量加载的数据？

浏览 19提问于2017-08-01得票数 1

回答已采纳

1回答

在HDFS中本地化HFile块

、、

我注意到，load只是一个HDFS移动命令(它不会物理上移动文件的块)。由于我们进行了大量的HBase表扫描，并且启用了短路读取，因此将这些HFiles本地化到其各自区域的节点将是有益的。

浏览 3提问于2015-08-09得票数 2

1回答

多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。因此，这是否意味着与大数据世界中的HDFS相比，S3的性能要差得多。

浏览 2提问于2019-01-15得票数 12

回答已采纳

3回答

星星之火--把一条特定的行当推到最后一排

、、

输入数据：|expected_date|count |Downstream | .orderBy(col("Downstream_Hierarchy").asc)输出数据帧

浏览 0提问于2018-08-27得票数 1

1回答

所有NoSQL框架都使用吗？

、、、、

我是大数据的新手；显然，大多数使用NoSQL框架(如MongoDB、CouchDb和Cassandra )的应用程序都需要访问大量的数据。

浏览 2提问于2015-01-26得票数 1

回答已采纳

1回答

关于HDFS中的文件创建

、

当客户机需要在HDFS ()中创建文件时，客户端的文件必须是64 。是真的吗？，我们如何在HDFS中加载小于64 MB的文件？我们是否可以加载一个文件，该文件仅供处理其他文件时参考，并且必须对所有数据节点可用？

浏览 3提问于2012-01-19得票数 2

回答已采纳

1回答

Hadoop的目的是保存在RAM或磁盘中？

、

通过查看互联网上的文档，我得到了这样的印象: HDFS的想法是将其保存在RAM中，以加快速度。现在我们的架构师说HDFS的主要思想是可伸缩性。我没意见。但他也声称，主要的想法是把它放在硬盘上。HDFS基本上是一个可伸缩的硬盘。我的观点是，硬盘支持HDFS是一种选择。但是，主要的想法是将其保存在RAM中。现在谁来了？我现在真的很困惑，我想说，这一点对于理解Hadoop是至关重要的。

浏览 2提问于2013-08-01得票数 1

回答已采纳

1回答

Hadoop中的文件存储

、、

在Hadoop中，假设我有一个文件A.txt，并且有一些示例数据，例如：如何将这些数据存储在块中？基本上，我想了解文件中的数据是如何存储在HDFS块中的。它会破坏内容，还是会根据一些独角兽或内容大小等对内容进行拆分。

浏览 5提问于2017-10-09得票数 0

1回答

星星之火:将大型MySQL表读入DataFrame失败

、

我试图编写一个作业，将数据(每天一次)从MySQL表移动到存储在Amazon S3上的Parquet / ORC文件的Hive表中。其中一些表相当大：~ 300 m记录和200 GB+ size (如phpMyAdmin所报告)。目前，我们正在为此使用sqoop，但出于以下原因，我们希望迁移到Spark：我已经能够在小型MySQL表上实现这一点，而没

浏览 1提问于2018-03-07得票数 7

3回答

在Hadoop MapReduce中，地图/合并和还原阶段之后的数据保存在哪里？

、、、

在Spark中，我们可以随时将数据保存在内存中，但我想知道在Hadoop MapReduce中，数据保存在地图和缩减阶段之间的位置。它是否保存在HDFS、磁盘或RAM中？我的意思是，当数据被洗牌时(在Map/Combiner之后，在减缩之前，也就是说)，它保存在哪里？

浏览 5提问于2016-10-13得票数 0

回答已采纳

3回答

HadoopFS (HDFS)作为分布式文件存储

、

我正在考虑使用HDFS作为我们的客户端视频托管服务的水平缩放文件存储系统。我主要担心HDFS不是为这个需求而开发的，这更多的是“一个开源系统，目前正在需要处理大量数据的情况下使用”。我们不想处理数据，只是存储它们，在HDFS的基础上创建一些类似于亚马逊内部小型S3模拟的东西。也许重要的时刻是，存储的文件大小将相当大，从100Mb到10Gb。有没有人使用HDFS来达到这样的目的？

浏览 0提问于2011-05-26得票数 5

1回答

Apache Hadoop HDFS能否帮助加快(通过web浏览器)向服务器上传大文件的速度？

、

据我所知，Hadoop HDFS不能提高网络速度，但我正在与一些人讨论如何才能显著加快上传速度，有人说他们能够使用HDFS显著提高上传速度。如果用户在LAN (100 MBPS)上，当用户使用浏览器上传大于100 on的大文件时，Hadoop HDFS是否可以帮助提高上传速度？

浏览 5提问于2019-01-31得票数 0

2回答

将数据存储在hdfs中而不是消息队列中

、、

我正在尝试更改在应用程序中处理数据的方法。数据首先从数据库接收并存储在消息队列中。我希望直接将数据放在hdfs中。我不希望数据写入文件并转移到hdfs。从hdfs开始，我将处理数据并将结果放入HDFS。我可以通过Java程序将数据写入hdfs，而不是将复制命令交给HDFS吗？

浏览 6提问于2015-07-06得票数 0

2回答

是否可以在spark.read.csv中包含目录信息？

、、

设想情况：df.write.partitionBy("foo", "bar").csv("hdfs:///quux/bletch") hdfs://quux/bletch/请不要告诉我，我必须逐个读取每个目录，手动添加数据，做一个大的，胖的union.

浏览 0提问于2018-08-23得票数 0

回答已采纳

2回答

将数据加载到Hadoop中

、、、、

我正试图找出这两个问题的正确答案，这两个问题都涉及将数据加载到您的Hadoop，这是我在网络上发现的，作为Hadoop开发的材料和案例研究的一部分。第一个问题是：A. HDFS指挥部C.您将如何收集这些数据以进行分析？编写一个MapReduce作业，其中web服务器用于映射器，Hadoop集群节点用于

浏览 2提问于2015-01-13得票数 1

回答已采纳

1回答