Linux 及 Windows 下 Hadoop 环境部署

发表时间:2021/4/8   来源:《教育学文摘》2021年第2期   作者:耿学
[导读] 随着数据的快速增长,原有的数据存储和分析机制已无法满足用户的需求,
        耿学
        (山东工业职业学院  山东  淄博  256414)
        【摘要】:随着数据的快速增长,原有的数据存储和分析机制已无法满足用户的需求,为了满足大数据的处理需求,引入了Hadoop处理框架。Hadoop作为分布式计算平台能够处理和分析海量数据,其核心组件HDFS是一个易扩展的分布式文件系统,部署在低成本机器上,且具有高度容错能力,另一核心组件MapReduce可用于大数据的并行处理。该文首先对Hadoop的由来进行了简要介绍,然后对Hadoop在Linux及Windows环境下如何搭建部署进行了详细说明。
【关键词】大数据、Hadoop、环境部署
一、Hadoop简介
        Hadoop源于Google提出的3种大数据的技术手段:MapReduce、BigTable、GFS,Nutch创始人Doug Cutting对GFS和MapReduce机制进行了实现,并成为Hadoop的两大核心组件HDFS和MapReduce。随着Hadoop的不断发展,如今已经发展成为一个庞大的生态体系。Hadoop分为3个版本,Hadoop 1、Hadoop 2、Hadoop 3,目前市场主流的是Hadoop 2,本文针对Hadoop 2的环境部署进行介绍。
二、Linux下Hadoop集群搭建
1、软硬件环境准备
        硬件方面,主节点使用单核CPU,2G内存,1个网卡,20G硬盘;从节点使用单核CPU,1G内存,1个网卡,10G硬盘[1]。
软件方面,虚拟机使用VMWare WorkStation12,Linux平台采用64位CentOS7.4,java环境使用jdk1.8,Hadoop使用hadoop2.7.4。
2、搭建步骤
(1)安装虚拟机
        Hadoop集群涉及多台机器,而在个人的Hadoop学习中,这显然是不可行的,为此,就需要借助于虚拟机软件在同一台电脑构建多个Linux环境,搭建Hadoop集群。
(2)安装三个服务器节点
在实际环境中,通常使用完全分布式模式构建企业级Hadoop系统[2]。在个人学习Hadoop时,构建奇数节点(也即主机)的分布式集群环境可为Hadoop其他组件如Zookeeper等的学习提供更好的环境支持,所以以最少资源达到最好效果的原则,建议使用3个节点搭建Hadoop集群。所以,需在虚拟机中安装Linux操作系统,并克隆两台虚拟机,1个主节点,3个从节点,主机名称命名为hadoop01、hadoop02、hadoop03,hadoop01作为主节点,hadoop01、hadoop02和hadoop03作为从节点。
(3)配置网络
        作为分布式集群,主节点要经常访问从节点,为保证IP的稳定性和集群服务的连续运行。需要配置静态IP地址和设置主节点SSH免密登录从节点,命令如下:
A、hadoop01网络配置如下

BOOTPROTO="static"

DEVICE="ens33"
ONBOOT="yes"
IPADDR=192.168.96.128
NETMASK=255.255.255.0
GATEWAY=192.168.96.2
DNS1=8.8.8.8
        hadoop02和hadoop03的网络配置同hadoop01,仅需修改参数IPADDR即可,这里将其分别设置为192.168.96.129和192.168.96.130,重启网络使之生效。同时,关闭防火墙,并修改映射文件/etc/hosts,实现主机名和IP地址的映射。
B、SSH免密登录
在hadoop01上执行命令ssh-keygen –r rsa生成密钥文件,并将公钥复制到从节点,命令为:ssh-copy-id 从节点IP地址。
(4)安装JDK
该文使用jdk1.8版本安装包,Windows平台下载jdk-8u241-linux-x64.tar.gz,并通过rz命令(通过yum install lrzsz –y安装rz命令)将jdk安装包上传至hadoop01、解压、配置环境变量、验证。
A、解压命令:tar -zxvf jdk1.8.tar.gz -C /usr/hadoop/
B、配置环境变量,在文件/etc/profile中增加如下内容:
export JAVA_HOME=/usr/hadoop/jdk
export PATH=$PATH:$JAVA_HOME/bin
C、输入命令java –version验证java环境是否已正确部署。
(5)安装Hadoop
        Hadoop的安装部署同上一步骤,需在Windows平台下载hadoop-2.7.4.tar.gz,上传、解压、配置环境变量并验证。
A、配置环境变量,在文件/etc/profile中增加如下内容:
export HADOOP_HOME=/export/servers/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
B、输入命令hadoop version验证hadoop环境是否已正确部署。
(6)集群配置
        要想实现hadoop集群的搭建,还需修改几个配置文件[3],例如,在core-site.xml中确定名称节点的地址及端口号,在hdfs-site.xml中指定副本的数量等,这3个节点的部署规划如下:

(7)启动和关闭Hadoop集群
在初次启动HDFS时必须格式化主节点:hdfs namenode –format,之后方可启动Hadoop集群,通过命令start-all.sh实现,关闭Hadoop集群,使用命令stop-all.sh。
(8)集群测试
集群启动后即可通过UI界面查看集群的运行状态,在浏览器地址栏输入http://192.168.96.128:50070/可查看HDFS集群的运行状态,输入http://192.168.96.128:8088可查看YARN集群的运行状态。
三、Windows下Hadoop环境部署
虽然Hadoop集群常常运行在Linux平台上,但是,MapReudce程序却常常在Windows平台开发,然后打包到集群上运行,这就需要搭建Windows端Hadoop环境[4]。
搭建步骤如下:
1、在已经安装java环境的windows平台解压hadoop-2.7.4.tar.gz。
2、在其bin目录增加两个插件winutils.exe和winutils.pdb。
3、配置环境变量HADOOP_HOME,其值为hadoop的解压目录,同时在path环境变量里增加其bin目录。
4、重启电脑使配置生效。
5、在dos下输入命令hadoop version进行验证。
四、小结
大数据学习中,首要的是搭建Hadoop环境,而Hadoop环境的搭建庞大繁琐,常常困扰着很多初学者,该文从大数据学习常用的两大平台:Linux平台和Windows平台介绍了Hadoop集群的安装部署,从各个细节解决初学者在搭建大数据环境时遇到的问题。
参考文献
[1] 刘顺. 基于 Hadoop 集群的词频统计应用 [J]. 科学技术创新,2020,30:97-98.
[2] 尹中江. 基于Hadoop的大数据基础平台搭建与西藏农业应用构想 [J]. 西藏农业科技,2019,3:73-78.
[3]林皓月,段华琼. 基于Linux平台下的Hadoop和Spark集群搭建研究 [J].电脑知识与技术,2020,23:207-208+221.
[4] 黑马程序员.Hadoop大数据技术原理与应用[M].清华大学出版社,2019.


作者简介
耿学(1986.1-),女,汉族,山东高青人,助教,毕业于太原理工大学,硕士研究生,工作单位:山东工业职业学院,地址:山东省淄博市高新技术开发区桓台新区张北路69号,研究方向:大数据、云计算、软件开发,联系方式:gengxue76351@163.com,电话:13793310199.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: