hadoop算法 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Hadoop Yarn写入本地文件系统

、、、

我有一个使用Hadoop处理1000个小文件的场景。然后，Hadoop作业的输出将用作非Hadoop算法的输入。然而，非Hadoop算法无法理解序列文件。因此，我编写了另一个简单的Hadoop作业，用于从Sequence File读取结果文件的数据，并创建可供非Hadoop算法使用的最终小文件。这里的问题是，对于最后一个作业，我必须从HDFS读取Sequence Files，并将其写入要由非Hadoop算法<

浏览 20提问于2017-08-20得票数 2

1回答

马乌特

、

我计划使用在Hadoop上运行的Mahout提供的一些聚类算法。令我困惑的是，如何实现这样的系统？我还需要Hadoop吗？

浏览 7提问于2014-08-15得票数 0

回答已采纳

1回答

Hadoop非常适合哪种类型的并行算法？

、、

我并不是Hadoop的专家，但我的理解是Hadoop非常适合并行算法，在这种并行算法中，并行性要么是映射缩减形式，要么是其他类型的分而治之。还有其他类型的算法技术也很适合吗？

浏览 0提问于2015-10-10得票数 1

回答已采纳

2回答

如何更改MapReduce混洗的加密算法

、、

根据我们的测试，Hadoop Shuffle默认使用DES加密: ECDHE-RSA- DES-CBC3-SHA:112，EDH-RSA-DES-CBC3-SHA:112，DES-CBC3-SHA:112hadoop.security.crypto.cipher.suite=AES/CTR/NoPadding dfs.encrypt.data.transfer.cipher.suites=AES/CTR

浏览 0提问于2016-06-02得票数 0

1回答

集群遗传编程/算法

、、

最近，我一直在尝试了解hadoop集群是否可以用于遗传算法/编程作业。我一直在读有关hadoop的文章，我知道它可以并行化处理大型数据集。在我的情况下，我不会有很大的数据集。但我发现真正有用的是hadoop的并行化功能。所以，我的问题是，像hadoop这样的程序是否可以用于评估或处理遗传算法/编程，我认为它将更多地面向处理，而不是面向I/O？

浏览 4提问于2011-11-06得票数 6

1回答

是否可以不依赖于hadoop使用apache mahout分类？

、、、、

是否可以使用Apache mahout分类而不依赖于Hadoop。我想在一台计算机上使用mahout算法，只在我的Java项目中包含mahout库，但是我根本不想使用hadoop，因为我将运行在一个节点上，windows 7操作系统。谢谢你的进阶

浏览 0提问于2014-04-04得票数 2

回答已采纳

1回答

Hadoop作业执行

、、

我正试图使用MapReduce框架在Hadoop中运行一个Algorithm算法。我成功地使用以下命令执行了一个示例wordcount程序：现在，我想使用上面的命令来执行我的Djikstra.java。我已经使用netbeans创建了应用程序的类文件。据我所知，类文件应该放在/share

浏览 0提问于2015-11-15得票数 0

1回答

PageRankBenchmark -降低0% -图示例

、

我正在使用PageRankBenchmark示例测试我的单个节点集群Gi相图的安装，方法如下： $HADOOP_HOME/bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/giraph-examples-1.1.0-for-hadoop-2.4.0-jar-with-dependencies.jar org.apache.giraph.benchmar

浏览 0提问于2015-03-24得票数 0

回答已采纳

2回答

除mahout外，Hadoop平台中的任何其他机器学习库

、

我正在从事一个利用机器学习算法的项目，我选择hadoop/mahout，因为它能够更好地处理大数据。但是mahout只集成了少数算法(不包括一些算法，比如支持向量机)，所以我想知道除了mahout之外，Hadoop平台中还有其他机器学习库吗？如果是这样，我有一些关于新图书馆的问题。

浏览 4提问于2013-01-22得票数 0

1回答

在由5台计算机组成的集群中以全分布式模式运行Hadoop所需的时间比在单台计算机中运行的时间要长

、、、

我在一个由5台机器(1台主机和4台从机)组成的集群中运行hadoop。我正在运行一个用于共同好友推荐的map-reduce算法，并且我使用了一个49995行的文件(或者49995个人，每个人后面跟着他的朋友)。问题是，在集群上执行算法比在一台机器上执行算法需要更多的时间！我不知道这是否正常，因为文件不够大(因此，由于机器之间的延迟，时间会变慢)，或者我必须更改一些东西，以便在不同的节点上并行运行算法，但我认为这是自动完成的。通常，在一台机器上运行该算法需要执行以下操作： real

浏览 1提问于2015-03-22得票数 0

1回答

hadoop :运行org.apache.classifier.df.mapreduce.TestForest错误

、、、

我对Mahout和随机森林很陌生，我想对我的数据集进行分类，并在我的三个虚拟Hadoop节点上构建了随机森林。我的系统都是带有hadoop-3.0.0的CentOS7。以下是HDFS：Found 5 items -rw-r--r-- 1 hadoop supergroup 8807688-rw-r--r-- 1 hadoop supergroup 278 20

浏览 2提问于2018-05-01得票数 0

回答已采纳

1回答

缩放基于Java的树

、、、、

所以我在考虑利用Hadoop的文件系统。跨集群对树进行索引，并使用MapReduce进行维护。干杯

浏览 0提问于2017-06-07得票数 0

2回答

为什么是Hadoop还是火花？有ElasticSearch

、、

我的问题很简单：哈德奥普或星火有，ElasticSearch 没有什么？如果算法是答案，我相信我在创建算法方面也不比Kimchy好。在Hadoop或Spark中，我们需要创建自己的算法。再说一遍，为什么仍然是Hadoop或火花？

浏览 5提问于2015-03-22得票数 7

1回答

在apache spark/Storm中运行python脚本

、、

我有一个用python编写的算法(不兼容hadoop，即不兼容mapper.py和reducer.py)，它在本地系统(不是hadoop)上运行得很好。我的目标是在hadoop中运行它。选项1: Hadoop流。但是，我需要将这个python脚本转换为mapper和reducer。还有别的办法吗？请帮助其他合适的解决方案。

浏览 0提问于2014-11-28得票数 0

2回答

我感兴趣的是反驳python中的一些图论猜想，最有效的库/服务器是什么？

、、、、

我对实现和运行一些繁重的图论算法很感兴趣，目的是(希望)为一些猜想找到反例。我正在考虑使用Python的Graph API。为了运行算法，我正在考虑使用Hadoop，但研究Hadoop时，我感觉它更适合分析数据库而不是枚举问题。非常感谢！

浏览 2提问于2012-03-04得票数 2

1回答

使用SparkR运行R模型

、、

我已经开发了一个R模型(在本地使用R)，并希望部署在安装了R的hadoop集群上。我想使用SparkR来利用高性能的计算。我只想在这里了解SparkR的角色.SparkR是否允许R模型在Hadoop集群上的SparkR中运行该算法？SparkR是否只启用数据处理，而ML算法仍将在Hadoop集群上的R上下文中运行？谢谢你的意见。

浏览 2提问于2017-11-14得票数 5

1回答

我想在hadoop中创建(或至少采用)一个新的“定制”调度器。我在网上看到了一堆调度算法，如下所述

、、

我想在hadoop中创建(或至少采用)一个新的“定制”调度器。我在网上看到了一堆调度算法，如下所述。Hadoop Scheduling Algorithms 我知道我们可以在yarn-server中扩展资源管理器/调度器/类的类，并编写我们自己的调度算法。但是有没有人可以给我一个他们写的自定义算法的例子，或者至少给我一个可以找到它们的路径(jar文件)。

浏览 24提问于2021-11-17得票数 0

1回答

有没有一种正确的方法来衡量迭代算法的加速比？

、

我计划提高Hadoop MapReduce版本的雅可比方法算法的速度，以处理非常大的数据(20.000 ++方程)。据我所知，加速比指的是并行算法比相应的顺序算法快多少。我已经在hadoop mapreduce和顺序版本中实现了Jacobi方法。我目前的加速技术是比较mapreduce和顺序版本，包括重复执行mapreduce和顺序版本30次，执行1次迭代。

浏览 3提问于2013-10-26得票数 0

1回答

用于并行非MapReduce算法的Hadoop集群

、、

Apache Hadoop的灵感来自于谷歌的MapReduce论文。MapReduce的流程可以看作是两组SIMD(单指令多数据流)，一组用于映射器，另一组用于减法器。MapReduce框架(和Hadoop)的本质是自动划分数据，确定分区和并行作业的数量，以及管理分布式资源。我有一个并行运行的通用算法(不一定是MapReducable)。我没有实现算法本身的MapReduce-way。相反，该算法只是一个单机python/java程序。我想并行运行这个程序的64个副本(假设程序中没有并发问题)

浏览 0提问于2013-04-10得票数 0

1回答