1、整体:Hadoop集群包括HDFS集群和YARN集群,二者逻辑上分离但通常物理上在一起,且均为标准的主从架构集群。
2、:HDFS集群负责海量数据的存储与管理,通过数据块的多副本机制实现高容错;YARN集群负责为多个应用程序分配和管理计算资源,使不同应用能灵活共享集群资源。
1、硬件环境:需多台服务器或虚拟机,配置应满足实际需求,如CPU、内存、磁盘等,建议使用性能较好的机器以保障集群稳定运行。
2、软件环境:安装CentOS 8操作系统(或其他Linux系统),并确保系统已更新到最新版本,安装JDK 1.8及以上版本,因Hadoop 3.x需要JDK 8支持。
1、创建用户:在各节点上创建hadoop用户,避免使用root用户安装,以降低误操作风险。
2、下载与解压:从Apache Hadoop官网下载Hadoop 3.3.4源码包,并在各节点的相同目录下解压。
3、配置免密码登录:配置SSH免密码登录,方便后续集群管理中的远程操作,在各节点上生成SSH密钥对,并将公钥添加到其他节点的授权列表中。
4、核心配置文件修改
hadoop-env.sh:设置JAVA_HOME环境变量,指向JDK安装路径。
core-site.xml:配置HDFS的NameNode地址和端口,以及文件系统的默认备份数等参数。
hdfs-site.xml:设置HDFS的SecondaryNameNode地址和端口,以及数据节点的存储目录等。
mapred-site.xml:配置MapReduce框架的相关参数,如框架名称、JobTracker地址等。
yarn-site.xml:设置ResourceManager的地址和端口,以及NodeManager的本地目录等参数。
slaves:列出所有DataNode和NodeManager所在的主机名。
1、格式化NameNode:在NameNode节点上执行hdfs namenode -format
命令,初始化HDFS。
2、启动HDFS:使用start-dfs.sh
脚本启动HDFS服务,并通过Web界面(http://namenode:50070/)查看HDFS状态,确认NameNode和DataNode均已正常启动。
3、启动YARN:运行start-yarn.sh
脚本启动YARN服务,并通过另一Web界面(http://resourcemanager:8088/cluster)查看YARN状态,确保ResourceManager和NodeManager运行正常。
1、Q1:如何检查Hadoop集群是否成功启动?
A1:可以通过访问HDFS的Web界面(http://namenode:50070/)和YARN的Web界面(http://resourcemanager:8088/cluster)来检查集群状态,如果NameNode、DataNode、ResourceManager和NodeManager的状态都显示为正常,则说明集群已成功启动,还可以通过运行一些简单的Hadoop命令,如hdfs dfs -ls /
来检查HDFS是否正常工作。
2、Q2:如果Hadoop集群启动失败,应该如何排查问题?
A2:可以查看Hadoop的日志文件(通常位于$HADOOP_HOME/logs目录下),寻找错误信息,常见的问题可能包括配置文件错误、端口冲突、SSH免密码登录配置不正确等,根据日志中的错误提示,逐步排查并解决问题,如果是端口冲突,可以尝试修改相关配置文件中的端口号;如果是SSH免密码登录问题,可以重新生成SSH密钥对并正确配置授权列表。