SmartbiMining单节点部署指南

安装指南

1、系统环境要求

组件	要求
操作系统	只支持 64位的Linux系统建议： CentOS 7或以上 RedHat 7或以上
CPU	建议16核或以上
内存	建议64G或128G
硬盘	建议固态硬盘或高速硬盘空间大小2048G

2、安装介质装备

SmartbiMining介质：

安装介质	文件名
JDK	jdk-8u181-linux-x64.tar.gz
Hadoop	hadoop-2.7.3.tar.gz
Spark	spark-2.4.0-bin-hadoop2.7.tgz
SmartbiEngine	smartbi-mining-engine-bin.tar.gz
Python	Python节点安装包Anaconda3-2019.10-Linux-x86_64.sh CentOS7版本：bzip2-1.0.6-13.el7.x86_64.rpm 离线插件包：plugin

3、设置系统环境

3.1 取消打开文件数限制

在/etc/security/limits.conf
文件的末尾加入以下内容：
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

3.2 取消SELINUX

修改/etc/selinux/config中的SELINUX为disabled
SELINUX=disabled

3.3 关闭防火墙

1）CentOS 7.X/Redhat 7.X
systemctl stop firewalld 
 systemctl disable firewalld 
 systemctl status firewalld

3.4 修改主机名

主机名不能使用下划线。

CentOS7:

# hostname 机器名
# echo 机器名 > /etc/hostname

配置主机ip和主机名的映射关系

# echo '服务器对应ip  机器名' >> /etc/hosts

开始部署

1、smartbi-spark单节点部署

spark是做为engine的计算节点来使用的。

如果只有一个节点部署试用，可以不部署spark，只部署数据挖掘引擎服务，然后配置本地模式来使用。
如果有两个及以上的服务器，可以一台部署engine，其他的机器部署spark单机版或者集群来提高性能。

Smartbi数据挖掘服务引擎目前仅支持当前版本（spark-2.4.0-bin-hadoop2.7）。

1.1 安装java

解压jdk到指定目录：

# tar-zxvf  jdk-8u181-linux-x64.tar.gz -C /opt

添加环境变量。

# vi /etc/profile

在最底下添加下面内容：

export JAVA_HOME=/usr/local/jdk1.8.0_181
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_BIN

让配置生效

# source /etc/profile

1.2 安装spark

1）解压及修改配置

1. 拷贝spark-2.4.0-bin-hadoop2.7.tgz到linux服务器

2. 解压到/opt目录

2）启动spark

启动spark主节点

# cd /usr/local/spark/sbin
# sh start-master.sh -h 主机名

例如: 主机名为SmartbiSpark，则执行：sh start-master.sh -h SmartbiSpark

启动work节点

# cd /usr/local/spark/sbin
# sh start-slave.sh spark://master节点的主机名:7077 -c 配置的cpu数 -m xg 配置得的内存数(g为单位)

Work节点最低配置问1核8G内存。cpu和内存比值建议为1:8，即一个cpu配置8G的内存。

例如：worker节点为16核，128g内存的配置，master的主机名为SmartbiSpark,则执行:

$ sh start-slave.sh spark:// SmartbiSpark:7077 -c 14 -m 112g ，2核16G留给操作系统。

3）检查spark

在浏览器中输入：http://master节点的ip:8080，查看集群状态，并在master节点提交任务测试进入/usr/local/spark目录，执行(将命令（

节点的ip）替换为master节点的实际ip或主机名):

# ./bin/spark-submit --class org.apache.spark.examples.SparkPi
--master spark://节点的ip:7077
/usr/local/spark/examples/jars/spark-examples_2.11-2.4.0.jar 100

运行得出圆周率Pi的近似值3.14即部署成功。

4）停止spark

# cd /usr/local/spark
# ./stop-all.sh
输入部署spark的节点的密码，停止spark。

5）查看日志

Spark的日志路径：/usr/local/spark/logs

安装部署或者使用中有问题，可能需要根据日志来分析解决。

6）版本更新

Spark仅作为计算节点。为了保证产品兼容性及稳定性，建议使用smartbi推荐的spark版本。目前暂时没有更新版本。

2、安装Python节点

python节点主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展。如果没有用到这两个功能模块，可以不用部署python节点。

2.1 配置环境变量

# echo export PATH=/usr/local/anaconda3/bin:$PATH >>/etc/profile
# source /etc/profile

2.2 安装python

配置本地yum源

参考文档：https://www.jellythink.com/archives/548

安装依赖包

# rpm -ivh bzip2-1.0.6-13.el7.x86_64.rpm
# yum install -y gcc

安装python主程序

指定安装目录为/opt/anaconda3

# ./Anaconda3-2019.10-Linux-x86_64.sh -b -p /opt/anaconda3
# ln -s /opt/anaconda3 /usr/local/anaconda3

安装python插件

进入python的离线插件包plugin目录

# pip install -U pip/pip-19.3.1-py2.py3-none-any.whl
# pip install xgboost/xgboost-0.90-py2.py3-none-manylinux1_x86_64.whl
# pip install lightgbm/lightgbm-2.3.0-py2.py3-none-manylinux1_x86_64.whl
# pip install psycopg2-binary/psycopg2_binary-2.8.4-cp37-cp37m-manylinux1_x86_64.whl
# pip install TextBlob/textblob-0.15.3-py2.py3-none-any.whl
# pip install --no-index --find-links=/data/python/download/jieba/ jieba
# pip install --no-index --find-links=/data/python/download/mysql-connector/ mysql-connector
# pip install --no-index --find-links=/data/python/download/SnowNLP/ SnowNLP
# pip install --no-index --find-links=/data/python/download/tensorflow/ tensorflow
# pip install --no-index
--find-links=/data/python/download/ hmmlearn / hmmlearn

3、smartbi-engine单节点安装

smartbiEngine是数据挖掘的引擎服务。必须配合smartbi大数据分析软件来使用。

3.1 系统设置

参考1.3章节设置系统环境。如果是同一台机器部署，可以忽略此步骤。

3.2 安装java

解压jdk到指定目录

#tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt

添加环境变量

# echo export JAVA_HOME=/opt/jdk1.8.0_181 >>/etc/profile
# echo export JAVA_BIN=$JAVA_HOME/bin >>/etc/profile
# echo export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar >>/etc/profile
# echo export PATH=$PATH:$JAVA_BIN >>/etc/profile

让配置生效

#source /etc/profile

3.3 安装引擎

解压数据挖掘引擎安装包到/opt目录(或其它空间足够的目录),在SmartbiMiningEngine-V9.1.xxxx.tar.gz所在目录下执行:

# tar -zxvf SmartbiMiningEngine-V9.1.51256.19453.tar.gz -C /opt
# ln -s /opt/smartbi-mining-engine-bin/ /usr/local/smartbiEngine

3.4启动引擎

PS：需先启动spark和smartbi

# cd /usr/local/smartbiEngine/engine/sbin
# sh experiment-daemon.sh start
# sh service-daemon.sh start

3.5配置引擎

3.5.1 配置数据挖掘实验

编辑 /usr/local/smartbiEngine/conf/experiment-application.properties

如下图所示，修改engine.monitor.receive.url和engine.monitor.authentication.url的地址为部署smartbi的主机名（ip）和端口号。

修改engine.monitor.authentication.user为访问smartbi（具有管理员权限）的帐号

修改engine.monitor.authentication.password为访问smartbi的密码。密码写明文，在smartbi和数据挖掘实验服务连接成功后，会自动加密为密文。

建议在smartbi单独创建一个用户帐号（需要管理员权限），提供给数据挖掘引擎使用。可以和数据挖掘服务共用一个帐号。

3.5.2 配置数据挖掘服务

编辑/usr/local/smartbiEngine/conf/service-application.properties

如下图所示，修改engine.monitor.receive.url和engine.monitor.authentication.url的地址为部署smartbi的主机名（ip）和端口号。

修改engine.monitor.authentication.user为访问smartbi（具有管理员权限）的帐号

修改engine.monitor.authentication.password为访问smartbi的密码。密码写明文，在smartbi和数据挖掘实验服务连接成功后，会自动加密为密文。

建议在smartbi单独创建一个用户帐号（需要管理员权限），提供给数据挖掘引擎使用。可以和数据挖掘实验共用一个帐号。

数据挖掘其他各配置项说明可以参考wiki文档说明了解。

挖掘实验配置说明：

https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=47497124

挖掘服务配置项说明：

https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=47497126

配置完成后重启引擎

数据挖掘其他各配置项说明可以参考wiki文档说明了解。

挖掘实验配置说明：

https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=47497124

挖掘服务配置项说明：

https://history.wiki.smartbi.com.cn/pages/viewpage.action?pageId=47497126

配置完成后重启引擎

3.6 重启引擎

# cd /usr/local/smartbiEngine/engine/sbin
# sh experiment-daemon.sh restart# sh service-daemon.sh restart

3.7 停止引擎

# cd /usr/local/smartbiEngine/engine/sbin
# sh experiment-daemon.sh restart# sh service-daemon.sh restart

3.8 验证安装

# cd /usr/local/smartbiEngine/engine/sbin
# sh  experiment-daemon.sh status
# sh service-daemon.sh status

3.9 日志目录

引擎启动后，会在/usr/local/smartbiEngine目录下生成logs目录，用来保存启动的引擎日志。

安装部署或使用中遇到问题，可能需要提供相应的日志文件来分析解决。

3.10 版本更新

联系support获取新版本的数据挖掘引擎安装包。

解压缩后，删除/usr/local/smartbiEngine/engine目录，然后上传新的engine目录。

ps:数据挖掘引擎安装包版本要和smartbi的war包版本一致。

1.14、验证部署

访问 smartbi

使用浏览器打开 http://服务器 ip:端口/smartbi/vision/index.jsp，按下图步骤验证安装：

新建示例：

保存示例：

运行示例：

查看示例：整个示例执行没有报错，数据挖掘服务部署成功。

关注我们

服务支持

页面树结构