这篇文章主要介绍HA机制下的hadoop如何配置,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
站在用户的角度思考问题,与客户深入沟通,找到雁山网站设计与雁山网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站设计制作、成都网站建设、企业官网、英文网站、手机端网站、网站推广、域名与空间、网页空间、企业邮箱。业务覆盖雁山地区。
一、hdfs的HA机制
NameNode服务器一台是ACTIVE和一台是STANDBY。通过Qjournal(日志管理系统) 使用zkfc(基于zookeeper失败切换控制)
如何防止脑裂现象: 当ACTIVE假死的时候,STANDBY的zkfc会发出指令 ssh kill-9 namenode 返回0(成功杀死,返回1则杀死失败)的时候再去通知第二台namenode去切换状态。 若无返回码的时候(超时未响应),则启动proweroff.sh(用户自定义的脚本)给第一台namenode断电,返回0则执行正常,然后去切换。
当第一台机器断电的时候(指活跃状态的namenode和zkfc都断电了),则第2台的zkfc会执行proweroff.sh。
关键词: 1、有两个namenode,分别是active和standby.
2、有两个zkfc来监控和管理两个namenode的状态
3、元数据日志edits由一个专门的日志系统负责管理--qjoournal
4、zkfc及qjournal的功能都要依赖于zookeeper的服务来实现
5、zkfc做状态切换时有两个防止脑裂的机制--ssh和shell脚本。
二、Hadoop集群的配置
打开hadoop的安装目录,如果还不会下载或者基础都不会使用的请看文章开头我提供的链接,请先学习基础配置。 我这里主要使用了5台虚拟机来模拟搭建这整个集群环境。
主机名 IP地址 主要功能
ubuntu1 192.168.44.128 namenode zkfc ResourceManager
ubuntu2 192.168.44.131 namenode zkfc ResourceManager
ubuntu3 192.168.44.132 DataNode、NodeManager、JournalNode、QuorumPeerMain
ubuntu4 192.168.44.133 DataNode、NodeManager、JournalNode、QuorumPeerMain
ubuntu5 192.168.44.134 DataNode、NodeManager、JournalNode、QuorumPeerMain
我们可以先来配置ubuntu1,然后剩下的就scp到其他机器上就可以了 core-site.xml
fs.defaultFS hdfs://ns1/ hadoop.tmp.dir /home/admin1/hadoop/HAhadoop/tmp/hadoop ha.zookeeper.quorum ubuntu3:2181,ubuntu4:2181,ubuntu5:2181
hdfs-site.xml
12 3 4 7 8dfs.nameservices 5ns1 69 12 13dfs.ha.namenodes.ns1 10nn1,nn2 1114 17 18dfs.namenode.rpc-address.ns1.nn1 15ubuntu1:9000 1619 22 23dfs.namenode.http-address.ns1.nn1 20ubuntu1:50070 2124 27 28dfs.namenode.rpc-address.ns1.nn2 25ubuntu2:9000 2629 32 33dfs.namenode.http-address.ns1.nn2 30ubuntu2:50070 3134 37 38dfs.namenode.shared.edits.dir 35qjournal://ubuntu3:8485;ubuntu4:8485;ubuntu5:8485/ns1 3639 42 43dfs.journalnode.edits.dir 40/home/admin1/hadoop/HAhadoop/journaldata 4144 47 48dfs.ha.automatic-failover.enabled 45true 4649 52 53dfs.client.failover.proxy.provider.ns1 50org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider 5154 60 61dfs.ha.fencing.methods 5556 sshfence 57 shell(/bin/true) 58 5962 65 66dfs.ha.fencing.ssh.private-key-files 63/home/admin1/.ssh/id_rsa 6467 70dfs.ha.fencing.ssh.connect-timeout 6830000 69
mapred-site.xml
12 3 4 7mapreduce.framework.name 5yarn 6
yarn-site.xml
12 3 4 5 8 9yarn.resourcemanager.ha.enabled 6true 710 13 14yarn.resourcemanager.cluster-id 11yrc 1215 18 19yarn.resourcemanager.ha.rm-ids 16rm1,rm2 1720 23yarn.resourcemanager.hostname.rm1 21ubuntu1 2224 27 28yarn.resourcemanager.hostname.rm2 25ubuntu2 2629 32yarn.resourcemanager.zk-address 30ubuntu3:2181,ubuntu4:2181,ubuntu5:2181 3133 36yarn.nodemanager.aux-services 34mapreduce_shuffle 35
slaves
1 ubuntu3 2 ubuntu4 3 ubuntu5
还有就是修改一下主机名。 sudo vi /etc/hostname ubuntu1 以及hosts的内容:
192.168.44.128 ubuntu1 192.168.44.131 ubuntu2 192.168.44.132 ubuntu3 192.168.44.133 ubuntu4 192.168.44.134 ubuntu5
注意:一定要把原来的那两天127.0.1.1 这一条给删除掉,一个hosts文件中,不能出现主机名相同和ip地址不同的情况,我开始就是因为这个因为,折腾了很久,datanode就是搭建不起来。
启动过程:
1、启动zookeeper集群 分别在ubuntu3,4,5中输入 开启服务: bin/zkServer.sh start 查看状态: bin/zkServer.sh status
2、启动journalnode 分别在ubuntu3,4,5中输入 sbin/hadoop-daemon.sh start journalnode 运行jps命令检验,多了JournalNode进程
3、格式化HDFS
在ubuntu1上执行命令:
bin/hdfs namenode -format #格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/HAhadoop/tmp,然后将/HAhadoop/tmp拷贝到ubuntu2的/HAhadoop/下。
scp -r tmp/ ubuntu2:/home/admin1/hadoop/HAhadoop/
4、格式化ZKFC(在ubuntu1上执行即可) bin/hdfs zkfc -formatZK
5、启动HDFS(在ubuntu1上执行) sbin/start-dfs.sh
6、启动YARN(在ubuntu1上执行) sbin/start-yarn.sh
如果是在ubuntu1中启动的话,那么默认的浏览窗口会是这样: ubuntu2是Active的,ubuntu1是一个Standby状态,
这个时候如果你去ubuntu2里面把这个namenode进程杀死的话,ubuntu1会自动切换为Active,ubuntu2会变成无法连接。
在剩下的3个datanode上面会这样:
以上是“HA机制下的hadoop如何配置”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!
当前题目:HA机制下的hadoop如何配置
分享链接:http://lswzjz.com/article/gpsjcp.html