一、hadoop下载
apache所有的project都有自己的域名,可以通过apache官网下的project list去找,也可以直接定位project.apache.org,比如hadoop直接输入网址hadoop.apache.org就可以了
二、环境准备,三台集群机器(centos)
Master 192.168.0.101
Slave1 192.168.0.102
Slave2 192.168.0.103
centos网络设置
首先是虚拟机网络设置,使用net模式,可以保证连上外网
然后是centos的网络设置,注意网卡地址和一些网络单词
最后,修改主机名(防止免密码验证混肴)
vi /etc/sysconfig/netword 和 vi /etc/hosts
修改主机名
三、配置JDK
首先查看服务器是否存在已安装JDK,java -version,看到已装,请将openJDK卸载,安装自己的JDK
vi /etc/profile export JAVA_HOME=${JAVA_HOME} ${JAVA_HOME} 是你配置jdk的地址,bin的上一层
export PATH=$JAVA_HOME/bin:path
四、克隆服务器
在服务器右键管理,进行克隆
克隆后,修改主机网卡
vi /etc/udev/rules.d/70-presistent-net.rules
将原来的PCI device下面name=“eth0”的网卡删除,将eth1修改为eth0,并记下ATTR(address)
vi /etc/sysconfig/network-script/ifcfg-eth0
修改ip和HWADDR(就是你记住的ATRR)
五、解压hadoop,配置环境变量(以下操作,都在主机)
vi /etc/profile export HADOOP_HOME=${HADOOP_HOME} 同样这里是你hadoop的解压地址 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH
六、最关键一步,配置hadoop环境(官方文档:http://hadoop.apache.org/docs/r2.7.3/)
${HADOOP_HOME}/etc/hadoop/hadoop-env.shexport JAVA_HOME=${JAVA_HOME} 这里配置JDK位置
${HADOOP_HOME}/etc/hadoop/hdfs-site.xmldfs.namenode.secondary.http-address Master:9001 配置主节点名和端口号 dfs.namenode.name.dir /usr/local/hadoop-2.7.3/name 配置从节点名和端口号 dfs.replication 2 配置副本数 dfs.datanode.data.dir /usr/local/hadoop-2.7.3/data 配置datanode的数据存储目录
${HADOOP_HOME}/etc/hadoop/core-site.xmlfs.defaultFS hdfs://master:9000 这里的值指的是默认的HDFS地址 io.file.buffer.size 131072 缓冲区大小:io.file.buffer.size默认是4KB hadoop.tmp.dir /usr/local/hadoop-2.7.3/tmp
${HADOOP_HOME}/etc/hadoop/yarn-site.xmlyarn.resourcemanager.address master:8032 resourcemanager的地址 yarn.resourcemanager.scheduler.address master:8030 调度器的端口 yarn.resourcemanager.resource-tracker.address master:8031 resource-tracker端口 yarn.resourcemanager.admin.address master:8033 resourcemanager管理器端 yarn.resourcemanager.webapp.address master:8088 ResourceManager 的 Web 端口,监控 job 的资源调度 yarn.nodemanager.aux-services mapreduce_shuffle
${HADOOP_HOME}/etc/hadoop/mapred-site.xml #hadoop对map-reduce运行框架一共提供了3种实现,在mapred-site.xml中通过"mapreduce.framework.name"这个属性来设置为"classic"、"yarn"或者"local"mapreduce.framework.name yarn mapreduce.jobhistory.address master:10200 MapReduce JobHistory Server地址 mapreduce..jobhistory.webapp.address hadoop1:19888 MapReduce JobHistory Server Web UI地址
${HADOOP_HOME}/etc/hadoop/slaveslave1slave2
这是个人配置,建议还是自己去官网查看配置,可能会对你配置更进一步
七、免密码登录
ssh-keygen -t rsa 四个回车ssh-copy-id master 对主机免密码ssh-copy-id slave1 ssh-copy-id slave2复制hadoop到从机相应地址scp -r ${HADOOP} slave1:/${HADOOP}scp -r ${HADOOP} slave2:/${HADOOP}
八、hadoop启动操作(在master执行)
hdfs namenode -format start-all.sh
使用jps查看各服务器进程
Master:ResourceManager、jps、NameNode、SecondaryNameNode
Slave:jps、DataNode、NodeManager
九、访问
如果是照着步骤一步一步来的话,应该是可以到这最后一步了,
首先在虚拟机外的宿主机的hosts文件中加入Master地址
master:8088、master:50070 进行访问