查看源

1.2 Spark集群安装

集群服务器：

机器	主机名	组件实例
192.168.137.141	smartbi-spark	spark master,spark worker
192.168.137.142	smartbi-spark2	spark worker
192.168.137.143	smartbi-spark3	spark worker

1.2.1 配置系统免密登录(集群服务器都执行)

1）生成密钥

# ssh-keygen

输入ssh-keygen后，连续按三次回车，不用输入其它信息

2）复制本机公钥到其它机器

假设当前的系统用户为root(注意，每台机器使用同一个用户来安装), 那命令如下:

# ssh-copy-id -i ~/.ssh/id_rsa.pub root@smartbi-spark

# ssh-copy-id -i ~/.ssh/id_rsa.pub root@smartbi-spark2

# ssh-copy-id -i ~/.ssh/id_rsa.pub root@smartbi-spark3

3）如果以上命令执行失败，可以手工把每个节点 ~/.ssh/id_rsa.pub的数据追加到其它节点的~/.ssh/authorized_keys文件中, 如果~/.ssh/authorized_keys不存在，可以新建一个.

4）测试是否设置成功

例如:

# ssh root@smartbi-spark

# ssh root@smartbi-spark2

# ssh root@smartbi-spark3

如果不用输入密码，表示设置成功.

1.2.2 集群安装JAVA(集群服务器都执行)

解压jdk到指定目录：

# tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt

添加环境变量。

# vi /etc/profile

在最底下添加下面内容：

export JAVA_HOME=/opt/jdk1.8.0_181

export JAVA_BIN=$JAVA_HOME/bin

export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_BIN

让配置生效

# source /etc/profile

#java -version

Smartbi V9 帮助中心 > 数据挖掘--部署spark2.4.0集群 > 6.png

1.2.3 Spark master节点安装Spark

1）解压Spark到安装目录

#tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt

2）配置Spark从节点列表

#cd /opt/spark-2.4.0-bin-hadoop2.7/conf

#cp slaves.template slaves

# vi slaves

把所有spark worker节点的机器名加到slaves文件中，例如slaves文件内容设置如下:

smartbi-spark

smartbi-spark2

smartbi-spark3

Smartbi V9 帮助中心 > 数据挖掘--部署spark2.4.0集群 > 7.png

3）配置spark-env

#cd /opt/spark-2.4.0-bin-hadoop2.7/conf

#cp spark-env.sh.template spark-env.sh

spark-env 配置项说明：

JAVA_HOME=java安装路径
SPARK_MASTER_IP=spark的管理节点主机名或ip
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=worker进程cpu数量(视现场服务器配置而定)
SPARK_WORKER_MEMORY=worker进程可支配内存(视现场服务器配置而定,单位:G, 例如:2G )

例如,worker节点为6核，48g内存，把2核16G留给操作系统

#vi spark-env.sh

内容设置如下：

JAVA_HOME=/opt/jdk1.8.0_181

SPARK_MASTER_IP=smartbi-spark

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=6

SPARK_WORKER_MEMORY=48g

Smartbi V9 帮助中心 > 数据挖掘--部署spark2.4.0集群 > 8.png

4）把安装目录分发到 spark worker节点

假设当前的系统用户为root命令如下：

#scp -r /opt/spark-2.4.0-bin-hadoop2.7 root@smartbi-spark2:/opt/

#scp -r /opt/spark-2.4.0-bin-hadoop2.7 root@smartbi-spark3:/opt/

5）在Spark master节点启动Spark

# cd /opt/spark-2.4.0-bin-hadoop2.7/sbin/

#./start-all.sh

Smartbi V9 帮助中心 > 数据挖掘--部署spark2.4.0集群 > 9.png

6）检验是否安装成功

在浏览器中输入：http://master节点的ip:8080, 检查集群状态，页面呈现如下:

Smartbi V9 帮助中心 > 数据挖掘--部署spark2.4.0集群 > 10.png

表示安装成功。