Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据hadoop环境搭建

大数据hadoop环境搭建

原创
作者头像
软件架构师Michael
发布于 2022-03-24 01:22:58
发布于 2022-03-24 01:22:58
5090
举报

一.前置工作

1.准备好centos虚拟机,安装好yum,vim

2.准备编译后的安装包:

apache-maven-3.3.9-bin.tar.gz

elasticsearch-6.3.0.tar.gz

elasticsearch-spark-20_2.11-6.3.0.jar

gradle-4.5-all.zip

hadoop-2.6.0-cdh5.7.0.tar.gz

jdk-8u91-linux-x64.tar.gz

kibana-6.3.0-linux-x86_64.tar.gz

nginx-1.11.6.tar.gz

Python-3.6.8.tar.xz

scala-2.11.8.tgz

spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz

二.上传安装包

1.安装lrzsz

sudo yum install lrzsz

2.centos上创建文件夹software,用于存放安装包,rz命令上传文件

mkdir software

三.解压安装包,配置环境变量

1.创建文件夹app,用于存放解压后的文件

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2.配置环境变量

vim ~/.bash_profile

注意配置顺序依次为:java,scala,hadoop,具体见如下截图

source ~/.bash_profile --------source后环境变量才会起作用

除了Hadoop的配置稍微繁琐意外,其余的配置都基本相同。

3.修改hadoop配置

目录:/etc/hadoop

vim hadoop-env.sh 配置JAVA_HOME

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91

vim core-site.xml 配置namenode

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml

#(1)fs.defaultFS参数配置的是HDFS的地址。

fs.defaultFS

hdfs://bigdata-senior01.chybinmy.com:8020

#(2)hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。

#创建临时目录:

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp

#将临时目录的所有者修改为hadoop

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tm

#修改hadoop.tmp.dir

hadoop.tmp.dir

/opt/data/tmp

vim hdfs-site.xml 配置dfs的namenode和datanode

<name>dfs.replication</name>

<value>1</value>

mapred-site.xml配置

<name>fs.default.name</name>

<value>hdfs://hadoop000:8020</value>

v

im yarn-site.xml

#配置mapred-site.xml,默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

#添加配置如下:

<name>mapreduce.framework.name</name>

<value>yarn</value>

#指定mapreduce运行在yarn框架上。

4.启动hadoop, 格式化(非常关键的一步)

hadoop bin目录下执行命令:./hadoop namenode -format

运行结果如下:

Hadoop格式化结果
Hadoop格式化结果

Hadoop sbin目录下执行命令:./start-dfs.sh (非常关机的一步)

5.执行hadoop,查看hadoop,至此hadoop已经安装成功

hadoop验证
hadoop验证

6.浏览器上查看hadoop管理页面(hdfs读写文件的过程此处省略)

1.jpg
2.jpg

小结】:

hadoop运行环境的搭建设计的安装包、环境变量、配置文件比较多,稍微一不留神就容易踩坑,一路上需要多加小心才行。好事多磨总能出结果。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LSH算法:高效相似性搜索的原理与Python实现
局部敏感哈希(LSH)技术是快速近似最近邻(ANN)搜索中的一个关键方法,广泛应用于实现高效且准确的相似性搜索。这项技术对于许多全球知名的大型科技公司来说是不可或缺的,包括谷歌、Netflix、亚马逊、Spotify和Uber等。
用户3578099
2024/07/04
1.7K0
LSH算法:高效相似性搜索的原理与Python实现
​数据科学中 17 种相似性和相异性度量(下)
相信大家已经读过数据科学中 17 种相似性和相异性度量(上),如果你还没有阅读,请戳👉这里。本篇将继续介绍数据科学中 17 种相似性和相异性度量,希望对你有所帮助。 ⑦ 皮尔逊相关距离 相关距离量化了两个属性之间线性、单调关系的强度。此外,它使用协方差值作为初始计算步骤。但是,协方差本身很难解释,并且不会显示数据与表示测量之间趋势的线的接近或远离程度。 为了说明相关性意味着什么,回到我们的 Iris 数据集并绘制 Iris-Setosa 样本以显示两个特征之间的关系:花瓣长度和花瓣宽度。 具有两个特征测
数据STUDIO
2022/02/18
2.4K0
​数据科学中 17 种相似性和相异性度量(下)
Faiss: 选择合适的索引Index
向量相似性搜索彻底改变了搜索领域。它允许我们高效地检索从GIF到文章等各种媒体,即使在处理十亿级别数据集时,也能在亚秒级时间内提供令人印象深刻的准确性。
用户3578099
2024/06/19
1.3K0
Faiss: 选择合适的索引Index
AI综述专栏| 大数据近似最近邻搜索哈希方法综述(下)
最近邻搜索(Nearest Neighbor Search)也称作最近点搜索,是指在一个尺度空间中搜索与查询点最近点的优化问题。最近邻搜索在很多领域中都有广泛应用,如:计算机视觉、信息检索、数据挖掘、机器学习,大规模学习等。其中在计算机视觉领域中应用最广,如:计算机图形学、图像检索、复本检索、物体识别、场景识别、场景分类、姿势评估,特征匹配等。由于哈希方法可以在保证正确率的前提下减少检索时间,如今哈希编码被广泛应用在各个领域。本文是关于大数据近似最近邻搜索问题中应用哈希方法的综述。文章分为两部分,本篇为第二部分。
马上科普尚尚
2020/05/11
1.5K0
乘积量化PQ:将高维向量压缩 97%
向量相似性搜索在处理大规模数据集时,往往面临着内存消耗的挑战。例如,即使是一个包含100万个密集向量的小数据集,其索引也可能需要数GB的内存。随着数据集规模的增长,尤其是高维数据,内存使用量会迅速增加,这可能导致内存管理问题。
用户3578099
2024/07/15
5530
乘积量化PQ:将高维向量压缩 97%
开发 | 揭开Faiss的面纱 探究Facebook相似性搜索工具的原理
AI科技评论按:本月初AI科技评论曾报道Facebook 开源了 AI 相似性搜索工具 Faiss。而在一个月之后的今天,Facebook 发布了对 Faiss 的官方原理介绍。 它是一个能使开发者快速搜索相似多媒体文件的算法库。而该领域一直是传统的搜索引擎的短板。借助Faiss,Facebook 在十亿级数据集上创建的最邻近搜索(nearest neighbor search),比此前的最前沿技术快 8.5 倍,并创造出迄今为止学术圈所见最快的、运行于 GPU 的 k-selection 算法。Faceb
AI科技评论
2018/03/12
2K0
开发 | 揭开Faiss的面纱 探究Facebook相似性搜索工具的原理
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)
机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重;
悟乙己
2019/05/26
2.2K0
彻底弄懂LSH之simHash算法[通俗易懂]
  马克·吐温曾经说过,所谓经典小说,就是指很多人希望读过,但很少人真正花时间去读的小说。这种说法同样适用于“经典”的计算机书籍。
全栈程序员站长
2022/09/20
2.1K0
Faiss:加速大规模数据相似性搜索的利器
在机器学习和数据挖掘领域,相似性搜索是一项基本且重要的任务,它涉及到在大型数据集中找到与特定对象最相似的对象。Faiss是一个由Facebook AI Research开发的库,专门用于高效地进行相似性搜索和聚类,它之所以重要,是因为它提供了一种快速且准确的方式来执行这一任务,尤其是在处理大规模高维向量数据集时。
用户3578099
2024/06/11
1.3K0
Faiss:加速大规模数据相似性搜索的利器
LSH︱python实现MinHash-LSH及MinHash LSH Forest——datasketch(四)
摘要总结:本文研究了基于LSH(Locality-Sensitive Hashing)的相似性度量方法,并将其应用于文本相似度计算。主要思路是将文本表示为向量,并使用LSH函数将向量映射到不同的桶中,然后根据桶内的向量相似度对文本进行排序。实验结果表明,该方法在文本相似度计算任务上取得了较好的效果。
悟乙己
2018/01/02
7K0
LSH︱python实现MinHash-LSH及MinHash LSH Forest——datasketch(四)
图像检索:基于内容的图像检索技术(四)
基于树结构的最近邻搜索方法和基于哈希的最近邻搜索方法在理论计算机科学、机器学习以及计算机视觉中是一个很活跃的领域,这些方法通过将特征空间划分成很多小的单元,以此减少空间搜索的区域,从而达到次线性的计算复杂度。
用户3578099
2020/03/18
1.6K0
一文带你了解检索增强生成中的神兵利器 —— 近似近邻搜索
随着大语言模型Chatgpt的横空出世,大语言模型(Large Language Model, LLM)频繁地出现在公众的视野中,成为了商业、娱乐、教育等领域讨论的热点。在LLM众多的出色能力中,其强大的检索能力(Information Retrieval)能力备受瞩目。大语言模型本身不联网,但却好像能回答互联网上能搜到的大部分问题,包括包括事情发生的具体时间、人物关系和前因后果等等。然而,LLM的记忆能力和检索能力也不是无限的。比如,LLM的幻觉(Hallucination)问题就是学术界和工业界目前致力于解决的问题 [1]。幻觉指的是即使在不确定答案的情况下,LLM不但不会承认无法回答,还会以自信的口吻凭空捏造出事实,通常可以以假乱真。为了解决这一现象,许多研究方向被提了出来,而检索增强生成(Retrieval-Augmented Generation, RAG)就是其中的一种方法。对于用户的提问,RAG首先生成信息检索请求,然后在数据库中寻找相关的信息,最后,结合相关信息和用户的提问向大语言模型进行提问(流程示意图见图1)。因为在数据库中寻找到的信息都是真实可靠的,大语言模型会根据提供的真实数据进行回答,减少其幻觉的可能。不仅如此,RAG的范式极大的扩展了大语言模型的应用场景,使得其可以实现大规模内容的记忆与整理。许多应用也由此催生出来,包括虚拟人设、文章理解/总结等。在RAG中,如何在大量的内容向量(数以万计)中找到与检索向量相匹配的内容直接决定了生成的质量和效率。能否在短时间内得到丰富翔实的内容对于最后回答的生成起到了近乎决定行性的作用。在本篇文章中,我们将介绍近似近邻搜索的概念,并介绍其中三种常见的方法。
飞翔的西红柿
2024/02/29
1.1K3
一文带你了解检索增强生成中的神兵利器 —— 近似近邻搜索
向量数据库原理之向量索引
在前面的文章中讲解了milvus的源码安装——向量数据库milvus源码剖析之开篇,向量数据库通常具备以下特点:
公众号guangcity
2024/06/27
7290
向量数据库原理之向量索引
AI综述专栏| 大数据近似最近邻搜索哈希方法综述(上)(附PDF下载)
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。
马上科普尚尚
2020/05/14
1.6K0
AI综述专栏| 大数据近似最近邻搜索哈希方法综述(上)(附PDF下载)
LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
本文介绍了自然语言处理中的文本相似度计算方法和应用场景,并详细阐述了基于LSH(Locality-Sensitive Hashing)方法、基于树的方法(如随机森林、梯度提升树等)和基于图的方法(如k-Nearest Neighbors,k-NN)等应用场景。同时,文章还对未来的研究方向进行了展望,包括模型性能的评价、适用领域的拓展、计算效率的提升等。
悟乙己
2018/01/02
2.6K0
LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)
学界 | Facebook AI实验室开源相似性搜索库Faiss:性能高于理论峰值55%,提速8.5倍
在用户日常搜索过程中,一个经常出现的问题即大多数返回的网站结果拥有完全相同或者几乎一样的信息。而应用了相似性搜索的相似引擎即可为用户返回最恰当、最合适的结果,同时隐藏或者丢弃那些重复的数据。 但是,目前相似性搜索领域需要克服的难题即它的规模和运行速度。近日,Facebook的人工智能研究团队就称已在该问题上取得了重要进展。Facebook在新发布的论文《Billion-scale similarity search with GPUs》中表示,可在GPU 上实现十亿规模级的相似性搜索,并且已开源该方法。
AI科技评论
2018/03/12
2.5K0
学界 | Facebook AI实验室开源相似性搜索库Faiss:性能高于理论峰值55%,提速8.5倍
【转】向量数据库相关
最近给研发部署pg+pgvector环境,这块还从未接触过。网上找到了下面这篇文章,讲的挺好转载过来。
保持热爱奔赴山海
2025/03/29
890
使用 Spark, LSH 和 TensorFlow 检测图片相似性
作为一个视觉数据处理平台,拥有从海量图片中学习并理解其内容的能力是非常重要的。为了检测几近重复的相似图片,我们使用了一套基于 Spark 和 TensorFlow 的数据流处理系统——NearDup。这套系统的核心由一个使用 Spark 实现的批量化 LSH(locality-sensitive hashing,局部敏感哈希)搜索器和一个基于 TensorFlow 的分类器构成。这个数据流处理系统每天能够比较上亿个分析对象,并渐进式地完成各个图像类别的信息更新。在本文中,我们将讲解如何使用这项技术更好地理解海量图片内容,从而使得我们产品前端界面的推荐内容和搜索结果具有更高的信息准确性、更大的数据密度。
AI研习社
2018/08/06
1.7K0
使用 Spark, LSH 和 TensorFlow 检测图片相似性
局部敏感哈希(Locality-Sensitive Hashing, LSH)
局部敏感哈希示意图(from: Piotr Indyk) LSH的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的,当然也存在不相邻的数据被hash到了同一个桶内。因此,如果我们能够找到这样一些hash functions,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,我们只需要将查询数据进行哈希映射得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配即可查找到与查询数据相邻的数据。换句话说,我们通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。 那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内?这些hash function需要满足以下两个条件: 1)如果d(x,y) ≤ d1, 则h(x) = h(y)的概率至少为p1; 2)如果d(x,y) ≥ d2, 则h(x) = h(y)的概率至多为p2; 其中d(x,y)表示x和y之间的距离,d1 < d2, h(x)和h(y)分别表示对x和y进行hash变换。 满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。 使用LSH进行对海量数据建立索引(Hash table)并通过索引来进行近似最近邻查找的过程如下: 1. 离线建立索引 (1)选取满足(d1,d2,p1,p2)-sensitive的LSH hash functions; (2)根据对查找结果的准确率(即相邻的数据被查找到的概率)确定hash table的个数L,每个table内的hash functions的个数K,以及跟LSH hash function自身有关的参数; (3)将所有数据经过LSH hash function哈希到相应的桶内,构成了一个或多个hash table; 2. 在线查找 (1)将查询数据经过LSH hash function哈希得到相应的桶号; (2)将桶号中对应的数据取出;(为了保证查找速度,通常只需要取出前2L个数据即可); (3)计算查询数据与这2L个数据之间的相似度或距离,返回最近邻的数据; LSH在线查找时间由两个部分组成: (1)通过LSH hash functions计算hash值(桶号)的时间;(2)将查询数据与桶内的数据进行比较计算的时间。因此,LSH的查找时间至少是一个sublinear时间。为什么是“至少”?因为我们可以通过对桶内的属于建立索引来加快匹配速度,这时第(2)部分的耗时就从O(N)变成了O(logN)或O(1)(取决于采用的索引方法)。 LSH为我们提供了一种在海量的高维数据集中查找与查询数据点(query data point)近似最相邻的某个或某些数据点。需要注意的是,LSH并不能保证一定能够查找到与query data point最相邻的数据,而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。 二、LSH的应用 LSH的应用场景很多,凡是需要进行大量数据之间的相似度(或距离)计算的地方都可以使用LSH来加快查找匹配速度,下面列举一些应用: (1)查找网络上的重复网页 互联网上由于各式各样的原因(例如转载、抄袭等)会存在很多重复的网页,因此为了提高搜索引擎的检索质量或避免重复建立索引,需要查找出重复的网页,以便进行一些处理。其大致的过程如下:将互联网的文档用一个集合或词袋向量来表征,然后通过一些hash运算来判断两篇文档之间的相似度,常用的有minhash+LSH、simhash。 (2)查找相似新闻网页或文章 与查找重复网页类似,可以通过hash的方法来判断两篇新闻网页或文章是否相
全栈程序员站长
2022/07/11
2.1K0
局部敏感哈希(Locality-Sensitive Hashing, LSH)
解读向量索引
向量嵌入是从图像、文本和音频等数据源转换而来的数字表示,旨在通过为每个项目创建一个数学向量来捕捉其语义或特征。这种表示方式使得计算系统更容易理解这些数据,并且与机器学习模型兼容,从而能够识别不同项之间的关系和相似性。
半吊子全栈工匠
2024/11/07
6820
解读向量索引
推荐阅读
相关推荐
LSH算法:高效相似性搜索的原理与Python实现
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档