挖掘大数据

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

Kafka将数据持久化到了硬盘上，允许你配置一定的策略对数据清理，清理的策略有两个，删除和压缩。

Kafka定时清除过期数据

由于Hadoop需要运行在Linux环境中，而且是分布式的，因此个人学习只能装虚拟机，本文都以VMware  Workstation为准，安装CentOS7，具体的安装此处不作过多介绍，只作需要用到的知识介绍。


零基础学习大数据，搭建Hadoop处理环境

通常，当传递给Spark操作（例如map or reduce）的函数在远程集群节点上执行时，它可以在函数中使用的所有变量的单独副本上工作。这些变量被复制到每个机器，并且远程机器上的变量的更新都不会被传播回到驱动程序。在任务之间支持一般的，读写共享变量将是低效的。然而，Spark 为两种常用的使用模式提供了两种有限类型的共享变量：广播变量和累加器。

Spark学习笔记——共享变量

2017年下半年，钱多、戏多、话题多的《中国有嘻哈》突然带火了一众rapper，原来格格不入的嘻哈音乐突然变成了主流。数据统计显示，截至9月7日，《中国有嘻哈》累计播放量29.9亿，豆瓣评分7.2。目前在新浪微博上，相关话题的讨论已达2619万条，阅读量超过65.6亿。那么，大家是否好奇过中国的rapper们唱的、想的、要的都是啥，我们用大数据分析一下。

另类大数据：中国有嘻哈的rapper们都在唱些什么？

Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。

常见的3种Hive参数配置方法

零基础学习hadoop，没有想象的那么困难，也没有想象的那么容易。从一开始什么都不懂，到能够搭建集群，开发。整个过程，只要有Linux基础，虚拟机化和java基础，其实hadoop并没有太大的困难。下面整理一下整个学习过程，给大家一个参考。

入门必读：Hadoop新手学习指导

Hadoop是Apache软件基金会的顶级开源项目，是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父，他打造了目前在云计算和大数据领域里如日中天的Hadoop。

时代的需要：越来越多的Java工程师开始转向hadoop？

  我们使用hadoop2.6.0版本配置Hadoop集群，同时配置NameNode+HA、ResourceManager+HA，并使用zookeeper来管理Hadoop集群

详解使用hadoop2.6.0搭建5个节点的分布式集群（附代码）

最近闲来无事，和朋友一起想学习Hadoop，最晚弄机器的弄到两点多，今天一起动手安装Hadoop的环境，刚开始也是一头雾水，Hadoop官网的教程我也是醉了，说的牛头不对马嘴，最后只能通过各种百度解决了问题，最后把安装的一些操作都记录下来，希望可以帮助到后来人

Hadoop基础教程——Hadoop单机版搭建

美国时间1月12日，OpenStack基金会的个人独立董事选举结果揭晓，EasyStack开源社区负责人郭长波通过选举，连任个人独立董事，将继续推动中国力量话语权。

EasyStack郭长波连任OpenStack基金会独立董事

不知道大家以前听没听说过“10x Developer”这个词，如果你连听都还没听说过，那可真是时候考虑放弃自己的程序猿事业了。就像传说一样，一些程序猿的战斗力能达到同行的10倍，也就是说一个10x程序猿能够替换一个10人的开发团队。

如何成为一名10x的数据分析师？

在Linux下使用安装Eclipse来进行hadoop应用开发，但是大部分Java程序员对linux系统不是那么熟悉，所以需要在windows下开发hadoop程序，经过试验，总结了如何在windows下使用Eclipse来开发hadoop程序代码。
 1、需要下载hadoop的专门插件jar包
  hadoop版本为2.3.0，hadoop集群搭建在centos6x上面，把插件包下载后，jar包名字为hadoop-eclipse-plugin-2.3.0，可以适用于hadoop2x系列软件版本。
 2、把插件包放到eclipse/plugins目录下
  为了以后方便，我这里把尽可能多的jar包都放进来了。
 3、重启eclipse，配置Hadoopinstallationdirectory
  如果插件安装成功，打开Windows—Preferences后，在窗口左侧会有HadoopMap/Reduce选项，点击此选项，在窗口右侧设置Hadoop安装路径。
  4、配置Map/ReduceLocations
  打开Windows-->OpenPerspective-->Other
  选择Map/Reduce，点击OK，在右下方看到有个Map/ReduceLocations的图标，点击Map/ReduceLocation选项卡，点击右边小象图标，打开HadoopLocation配置窗口：输入LocationName，任意名称即可.配置Map/ReduceMaster和DFSMastrer，Host和Port配置成与core-site.xml的设置一致即可。
  去找core-site.xml配置：
  fs.default.namehdfs://name01:9000
  点击"Finish"按钮，关闭窗口。点击左侧的DFSLocations—>myhadoop（上一步配置的locationname)，如能看到user，表示安装成功，但是进去看到报错信息：Error:Permissiondenied:user=root,access=READ_EXECUTE,inode="/tmp";hadoop:supergroup:drwx---------。
 应该是权限问题：把/tmp/目录下面所有的关于hadoop的文件夹设置成hadoop用户所有然后分配授予777权限。
  cd/tmp/
  chmod777/tmp/
  chown-Rhadoop.hadoop/tmp/hsperfdata_root
  之后重新连接打开DFSLocations就显示正常了。
  Map/ReduceMaster(此处为Hadoop集群的Map/Reduce地址，应该和mapred-site.xml中的mapred.job.tracker设置相同)
  （1）：点击报错：
  Aninternalerroroccurredduring:"ConnectingtoDFShadoopname01".
  java.net.UnknownHostException:name01
  直接在hostname那一栏里面设置ip地址为：192.168.52.128，即可，这样就正常打开了，如下图所示：
  5、新建WordCount项目
  File—>Project，选择Map/ReduceProject，输入项目名称WordCount等。
  在WordCount项目里新建class，名称为WordCount，报错代码如下：InvalidHadoopRuntimespecified;pleaseclick'ConfigureHadoopinstalldirectory'orfillinlibrarylocationinputfield，报错原因是目录选择不对，不能选择在跟目录E:\hadoop下，换成E:\u\hadoop\就可以了，如下所示：
  一路下一步过去，点击Finished按钮，完成工程创建，Eclipse控制台下面出现如下信息：
  14-12-9下午04时03分10秒:EclipseisrunninginaJRE,butaJDKisrequired
  SomeMavenpluginsmaynotworkwhenimportingprojectsorupdatingsourcefolders.
  14-12-9下午04时03分13秒:Refreshing[/WordCount/pom.xml]
  14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml]
  14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml]
  14-12-9下午04时03分14秒:Updatingindexcentral|http://repo1.maven.o

Win7下Eclipse开发hadoop应用程序环境搭建

Hadoop生态圈各组件的启动及关闭脚本，虽然有些使用频率不高，不容易记住，这里特地整理出来，大家可以先保存，用的时候就方便了。

Hadoop生态圈和各组件的启动、关闭脚本介绍

本文将介绍10种处理海量数据问题的常见方法，也可以说是对海量数据的处理方法进行一个简单的总结，希望对你有帮助。

处理海量数据的10种常见方法

很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢？用不用参加大数据培训呢？如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。 

大数据初学者该如何快速入门？

数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，本文将介绍数据挖掘中十种实用分析方法。

10种受欢迎的数据挖掘的实用分析方法

Apache NiFi是什么？NiFi官网给出如下解释：“一个易用、强大、可靠的数据处理与分发系统”。通俗的来说，即Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统，其为数据流设计，它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。
为了对NiFi能够表述的更为清楚，下面通过NiFi的架构来做简要介绍，如下图所示。


Apache NiFi 简介及Processor实战应用

你准备好面试了吗？呀，需要Hadoop面试题知识！不要慌！这里有一些可能会问到的问题以及你应该给出的答案。

收藏！6道常见hadoop面试题及答案解析

刚接触大数据的朋友最容易产生以下误解，下面就让我把这些误解分别介绍一下，看看你有没有进入这些误区。

10个大数据误区，看看你中了几个？

（一）准备工作
1、准备几台机器
10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器
10.1.51.10 master
10.1.51.11 slave1
10.1.51.12 slave2
2、都创建管理用户hadoop
3、做ssh免密码登录(ambariserver到其他机器的，hadoop用户)
ssh-keygen
cd .ssh
cat id_rsa.pub >> authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
注意，免密码一定要互相登陆一次，让他记住密码
4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做
在各节点上进入root:
visudo 加入如下内容：
hadoop ALL=(ALL) NOPASSWD: ALL
5、Maximum Open File Descriptors(10000)
检查语句
ulimit -Sn
ulimit -Hn
sudo vi /etc/security/limits.conf
@hadoop soft nproc 262144
@hadoop hard nproc 262144
@hadoop soft nofile 262144
@hadoop hard nofile 262144
sudo vi /etc/security/limits.d/90-nproc.conf
@hadoop soft nproc 262144
以上改动重启才能生效，最好同时执行ulimit -u 10240 命令，是其立即生效。（ulimit 命令很多啊）
6、Check Existing Package Versions
7、Set up Service User Accounts(设置服务用户账户)
http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422
hdp的各个服务运行在不同的linux账户下，如果你创建了这些账户，ambari就会直接用，否则他会自动创建，但是自动创建的用户不知道密码是什么，但是还是可以
sudo su hdfs进入到这些用户下，不过这样就不方便了。
比较好的办法是自己创建的账户，使用ambari安装组件时选择自定义账户即可(UID >= 1000)。
8、Enable NTP on the Cluster and on the Browser Host
集群各节点，包括安装ambari webui的机器都得开启ntp服务已同步时间，如果有条件，局域网应该有ntp服务器
To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd
To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on
To turn on the NTP service, run the following command on each host:service ntpd start
9、Check DNS(可以选择10)
集群所有机器必须配置正向和反向DNS,如果条件不允许，就设置/etc/hosts文件，每个节点都得改
10、/etc/hosts
1.2.3.4 <fully.qualified.domain.name> //一行一个
注意：这两行千万不要删除
127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6
vi /etc/sysconfig/network
NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name>
11、关闭防火墙
12、Disable SELinux and PackageKit and check the umask Value
set SELINUX=disabled in /etc/selinux/config
sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf
设置：enabled=0
Ambari supports a umask value 

ambari安装指南

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

腾讯云开发者社区推出了挖掘大数据专栏，为你提供了挖掘大数据的相关文章，致力于帮助开发者快速成长与发展。

挖掘大数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐