未获取架构WASB的FileSystem。Hdinsight Map Reduce

文章/答案/技术大牛

发布

3回答

、、、

我正在Azure HDInsight中运行一个简单的map reduce作业，下面是我们正在运行的命令： java -jar WordCount201.jar wasb://hexhadoopcluster-2019-05-15t07-01-07-193z@hexanikahdinsight.blob.core.windows.net/hexa/CustData.csv wasb://hexhadoopclus

浏览 29提问于2019-05-16得票数 0

回答已采纳

1回答

如何在Hadoop中读取Azure Blob存储？

、、、

我有一个map-reduce作业，reducer获得了Azure Blob存储上的文件的绝对地址，reducer应该打开它并读取其内容。在配置Hadoop集群(HDInsight)时，我添加了包含文件的存储帐户。因此，reducer必须能够访问此Blob存储，但Blob存储不是我的作业的默认HDFS存储。我的reducer中有以下代码，但它给出了一条FileNotFound错误消息。FileSystem fs = <

浏览 2提问于2015-06-17得票数 1

2回答

如何在处理数据时在Azure HDInsight中实现数据分发

、、、

Hadoop的卖点之一是数据与计算？这与WASB是如何工作的？在处理MapReduce作业时，map和reduce任务将在数据块所在的位置执行。这样就实现了数据的局部性。但在HDInsight的情况下，数据存储在wasb中。那么，在执行MapReduce时，是否将数据从wasb复制到每个计算节点，然后继续处理？如果是这样，那么将数据复制到计算节点的单一通道将成为瓶颈。谁能给我解释

浏览 2提问于2016-09-01得票数 0

1回答

如何查看我的mapreduce作业是否在多个节点上执行？

、、

我在集群中运行了一个Map Reduce作业。我在HDInsight上创建了一个带有2个namenodes和4个datanodes的作业。 WASB: Number of lar

浏览 1提问于2016-01-25得票数 0

回答已采纳

1回答

数据库读取Azure blob上次修改的日期

、

我有一个Azure blob存储安装在我的Databricks hdfs上。有办法在databricks中获取blob的最后修改日期吗？我就是这样阅读blob内容的： .option("header", "false") .option("inferSchema", "false")

浏览 0提问于2018-12-02得票数 1

回答已采纳

1回答

奇怪的错误!！HdInsight Hadoop MapReduce代码255失败

、、、

我使用的是Microsoft的HdInsight，它有一个头节点和一个数据节点。我读过一些文章提到设置mapreduce.map.memory.mb应该设置为"1024“，这样映射器就有了更多的内存。考虑到我有190 GB的文件要处理，而且集群中的任何机器都没有接近这个数量的RAM，我不明白这是如何扩展的。 --我确信我遗漏了一些很小的东西，但有人知道我应该如何解决这个问题吗？: Number of byt

浏览 0提问于2015-08-01得票数 0

1回答

我是否可以运行JAR文件，其中包括HDInsight中lib文件夹下的另一个JAR文件？

、、

是否可以在HDInsight中运行JAR文件，其中包括lib文件夹下的另一个JAR文件？

浏览 2提问于2015-09-16得票数 0

回答已采纳

2回答

使用Java代码运行简单的Hadoop命令

、、、

我能不能写一小段java代码，把它做成一个jar，然后把它提供给Map reduce job(Amazon EMR)来实现这一点？你能告诉我实现这一点的代码和步骤吗？

浏览 0提问于2014-08-04得票数 1

2回答

hadoop中映射器的多个输入

、

我尝试过DistributedCache，但我在main中使用addCacheFile放入的任何内容，似乎都不会在映射器中使用getLocalCacheFiles返回。现在我正在使用FileSystem读取文件，但是我在本地运行，所以我可以只发送文件的名称。如果我在一个真正的hadoop系统上运行，我想知道该怎么做。除了它正在读取的文件之外，有没有什么方法可以将值发送到映射器？

浏览 0提问于2012-02-05得票数 1

回答已采纳

4回答

Hadoop :提供目录作为MapReduce作业的输入

、、、、

我能够运行简单的mapreduce程序，其中我提供一个文件作为MapReduce程序的输入。但我有一次被困住了。/folder1 - file2.txt如何将MapReduce程序的输入路径指定为"/folder1"，以便它能够开始处理该目录中的每个文件编辑: 1)不恰当地，我提供了inputFile.txt作为mapreduce程序的

浏览 7提问于2013-11-20得票数 8

1回答

如何读取hadoop顺序文件？

、、、、

我有一个顺序文件，它是hadoop map-reduce作业的输出。在这个文件中，数据以键值对的形式写入，值本身就是一个映射。我希望将值作为MAP对象读取，以便可以进一步处理它。"D:\\OSP\\sample_data\\data\\part-00000"); System.out.println(&

浏览 0提问于2011-11-25得票数 8

回答已采纳

2回答

星星之火:加载多个文件，单独分析，合并结果，保存

、、、

我对火花并不熟悉，也不太清楚该如何问这个问题(使用哪些术语等等)，下面是我在概念上想要实现的目标：我有很多小的，单独的.txt“分类帐”文件(例如，带有时间戳和属性值的行分隔文件)。我想： val fil

浏览 0提问于2019-04-14得票数 1

1回答

(Map Reduce)

、、、、

尝试使用hadoop map reduce处理文本以获取词性。没有错误，但map函数仍未提供任何输出。private final static IntWritable one = new IntWritable(1); private Mapmobyposi.i"); //Path pt = new Path("/user/gxs161530/moby

浏览 2提问于2017-02-18得票数 0

2回答

Hadoop setJarByClass不工作

Map extends fs.delete(new Path);

浏览 1提问于2014-12-02得票数 0

2回答

如何使用sqlContext加载多个拼图文件？

、

我正在尝试在spark中加载拼图文件的目录，但似乎无法将其加载到work...this中似乎可以工作： val df = sqlContext.load("hdfs://nameservice1/data

浏览 5提问于2015-11-21得票数 4

2回答

使用HBase / Hadoop / Storm

、、、、

我收到一个输入文件，其中有200 MM的记录。记录只是一把钥匙。对于这个文件(我称之为SAMPLE_FILE)中的每条记录，我需要从一个数据库(我称之为EVENT_DATABASE )中检索匹配关键字的所有记录。EVENT_DATABASE可以有数十亿条记录。，并获得具有相同键的所有事件。例如，获取1234并查询EVENT_DATABASE将检索：1234 - content B - 51234 -然后，我将运行<em

浏览 1提问于2014-11-19得票数 0

4回答

在函数中返回多个值

我正在练习使用map方法，但我被这个问题卡住了。我试图从这些数组中返回最大的数字，但是为了使我的函数完整，我需要在嵌套的map之外返回push方法。我不知道该怎么做。任何意见都将非常感谢。37, 39], [100, 1001, 857, 1]] return arr.map((item, index) => { let tempMax = item

浏览 1提问于2021-01-17得票数 0

1回答

Hadoop: Eclipse列表之外的数据丢失

、、、、

我已经编写了一个简单的MapReduce作业(基于单词计数示例)来获取文本文件中的单词总数。我逐行浏览文件，在映射它之前，我做了一些处理。除了在映射之前删除行中的某些单词外，所有这些似乎都有效。问题是:一旦作业开始，我的包含单词的ArrayList似乎又是空的。有趣的是，只有在eclipse (jar-file)之外启动程序时才会发生这种情况，在eclipse中，单词被删除。eclipse之外的最终结果是1320万个单词，尽管它总共应

浏览 0提问于2013-11-21得票数 0

1回答