安装指南
1、系统环境要求
组件 | 要求 |
---|
操作系统 | 只支持 64位的Linux系统 建议: |
CPU | 建议16核或以上 |
内存 | 建议64G或128G |
硬盘 | 建议固态硬盘或高速硬盘 空间大小2048G |
2、安装介质装备
SmartbiMining介质:
安装介质 | 文件名 |
---|
JDK | jdk-8u181-linux-x64.tar.gz |
Hadoop | hadoop-2.7.3.tar.gz |
Spark | spark-2.4.0-bin-hadoop2.7.tgz |
SmartbiEngine | smartbi-mining-engine-bin.tar.gz |
Python | Python节点安装包Anaconda3-2019.10-Linux-x86_64.sh CentOS7版本:bzip2-1.0.6-13.el7.x86_64.rpm 离线插件包:plugin |
3、设置系统环境
3.1 取消打开文件数限制
在/etc/security/limits.conf
文件的末尾加入以下内容:
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072
3.2 取消SELINUX
修改/etc/selinux/config中的SELINUX为disabled
SELINUX=disabled
3.3 关闭防火墙
1)CentOS 7.X/Redhat 7.X
systemctl stop firewalld
systemctl disable firewalld
systemctl status firewalld
3.4 修改主机名
CentOS7:
# hostname 机器名
# echo 机器名 > /etc/hostname
配置主机ip和主机名的映射关系
# echo '服务器对应ip 机器名' >> /etc/hosts
开始部署
1、smartbi-spark单节点部署
spark是做为engine的计算节点来使用的。
- 如果只有一个节点部署试用,可以不部署spark,只部署数据挖掘引擎服务,然后配置本地模式来使用。
- 如果有两个及以上的服务器,可以一台部署engine,其他的机器部署spark单机版或者集群来提高性能。
1.1 安装java
解压jdk到指定目录:
# tar-zxvf jdk-8u181-linux-x64.tar.gz -C /opt
添加环境变量。
在最底下添加下面内容:
export JAVA_HOME=/usr/local/jdk1.8.0_181
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_BIN
让配置生效
1.2 安装spark
1)解压及修改配置
1. 拷贝spark-2.4.0-bin-hadoop2.7.tgz到linux服务器
2. 解压到/opt目录
2)启动spark
启动spark主节点
# cd /usr/local/spark/sbin
# sh start-master.sh -h 主机名
例如: 主机名为SmartbiSpark,则执行:sh start-master.sh -h SmartbiSpark
启动work节点
# cd /usr/local/spark/sbin
# sh start-slave.sh spark://master节点的主机名:7077 -c 配置的cpu数 -m xg 配置得的内存数(g为单位)
例如:worker节点为16核,128g内存的配置,master的主机名为SmartbiSpark,则执行:
$ sh start-slave.sh spark:// SmartbiSpark:7077 -c 14 -m 112g ,2核16G留给操作系统。
3)检查spark
在浏览器中输入:http://master节点的ip:8080,查看集群状态,并在master节点提交任务测试进入/usr/local/spark目录,执行(将命令(
节点的ip)替换为master节点的实际ip或主机名):
# ./bin/spark-submit --class org.apache.spark.examples.SparkPi
--master spark://节点的ip:7077
/usr/local/spark/examples/jars/spark-examples_2.11-2.4.0.jar 100
运行得出圆周率Pi的近似值3.14即部署成功。
4)停止spark
# cd /usr/local/spark
# ./stop-all.sh
输入部署spark的节点的密码,停止spark。
5)查看日志
Spark的日志路径:/usr/local/spark/logs
安装部署或者使用中有问题,可能需要根据日志来分析解决。
6)版本更新
Spark仅作为计算节点。为了保证产品兼容性及稳定性,建议使用smartbi推荐的spark版本。目前暂时没有更新版本。
2、smartbi-engine单节点安装
2.1 java安装
参考spark的java安装章节。如果是同一台机器部署,可以忽略此步骤。
2.2 系统设置
参考spark的系统设置章节。如果是同一台机器部署,可以忽略此步骤。
2.3 安装引擎
解压安装包到/usr/local目录(或其它空间足够的目录),在smartbi-mining-engine-1.0-SNAPSHOT-bin.tar.gz所在目录下执行:
# 修改配置,打开/usr/local/engine/conf/experiment-application.properties,按下图修改配置:
打开/usr/local/engine/conf/service-application.properties,按下图修改配置:
2.4 启动引擎
执行(注意:需先启动spark和smartbi):
2.5 验证安装
3、smartbi-pynode部署
3.1 安装bzip2
CentOS 6
CentOS 7
3.2 安装
假设Anaconda安装包在/tmp目录,若不是/tmp目录,则将下面命令中的/tmp改为其它目录。
3.3 配置环境变量
在文件最后加入:
4、在smartbi配置smartbi-engine
1)选择“系统运维”界面主菜单 系统选项 ,如图:
2)进入“系统选项”界面,选择“机器学习配置”分类页,如图进行设置:
3)执行完第二步后,点击右下方的保存按钮,然后重启smartbi。
5、验证部署
访问 smartbi。
使用浏览器打开 http://服务器 ip:端口/smartbi,按下图步骤验证安装:
1)选择“数据挖掘”主界面的 实验管理 分类页,选择 案例 页签,点击 波士顿房价预测 案例:
2)点击 运行 按钮,进行检验。