升级内容
存储挖掘实验的节点中间数据
V9.6版本修改了实验节点中间数据的存储逻辑,实现了对于任何节点,只要它上游节点执行完成,都可以从该节点执行,不需要从头开始执行。由于使用HDFS存储节点数据,因此V9.6升级需要在默认部署环境中增加HDFS的部署。
HDFS的部署方法如下:
部署环节
步骤详情
准备hadoop数据目录
1、创建临时目录:
|
2、创建namenode数据目录
|
3、创建datanode 数据目录
注意:这个目录尽量创建在空间比较大的目录,如果有多个磁盘,可以创建多个目录
|
解压Hadoop到安装目录
|
修改hadoop配置
1、修改hadoop-env.sh
|
2、找到JAVA_HOME,修改为如下所示:
|
3、找到export HADOOP_OPTS, 在下面添加一行
|
4、修改core-site.xml
|
内容如下:
|
5、修改hdfs-site.xml
|
内容如下:
注意:dfs.data.dir尽量配置在空间比较大的目录,可以配置多个目录,中间用逗号分隔
|
配置hadoop环境变量
|
在最底下添加下面内容:
|
让配置生效
|
详细的升级文档请参见:数据挖掘引擎V95升级V96版本注意事项 。
实验引擎跟python执行节点的交互,使用restful方式
数据挖掘组件 | V95版本 | V96版本 | 更新内容 |
---|---|---|---|
实验引擎 | √ | √ | 数据挖掘引擎版本更新 |
服务引擎 | √ | √ | 数据挖掘引擎版本更新 |
Spark | √ | √ | Spark版本由2.4升级到3.0版本 |
Python执行节点 | √ | √ | 数据挖掘引擎版本更新,新增代理程序启动用户。 |
Hadoop | × | √ | 新增Hadoop组件,用于节点中间数据存储。 |
Spark版本升级
V96版本中Spark版本从2.4升级到了3.0版本,Spark添加了密钥认证方式,数据挖掘中添加了Spark的密钥认证,提高了安全性。
手工部署Spark2.4到3.0的升级参考文档:数据挖掘引擎V95升级Beta版本
高性能版本部署spark升级参考文档:高性能版本-数据挖掘V95升级Beta版本
存储挖掘实验的节点中间数据
V9.6版本修改了实验节点中间数据的存储逻辑,实现了对于任何节点,只要它上游节点执行完成,都可以从该节点执行,不需要从头开始执行。由于使用HDFS存储节点数据,因此V9.6升级需要在默认部署环境中增加HDFS的部署。
HDFS的部署方法请参考文档:数据挖掘引擎V95升级Beta版本
高性能版本HDFS的部署方法参考文档:高性能版本-数据挖掘V95升级Beta版本
实验引擎跟Python执行节点的交互,使用restful方式
在V9.5版本中,实验引擎跟python执行节点交互是使用ssh方式;基于安全跟系统扩展性考虑,V9.6版本实验引擎跟python执行节点交互是使用restful方式。
因此V9.6版本升级需要按照如下方法部署python节点:
部署环节
步骤详情
配置基础环境
1)安装JAVA
解压jdk到指定目录:
# tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt
添加环境变量。
# vi /etc/profile
在最底下添加下面内容:
export JAVA_HOME=/opt/jdk1.8.0_181
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_BIN
让配置生效
# source /etc/profile
#java -version
2)配置本地yum源
安装Python主程序
1)安装依赖包
#rpm -ivh bzip2-1.0.6-13.el7.x86_64.rpm
#yum install gcc
注意:Centos7.4 以上,无需安装依赖包。
2)安装 Anaconda3并指定安装目录为/opt/anaconda3
#bash Anaconda3-2019.10-Linux-x86_64.sh -b -p /opt/anaconda3
3)配置环境变量
#vi /etc/profile
在末尾添加以下内容:
export PATH=/opt/anaconda3/bin:$PATH
使配置生效
# source /etc/profile
4) 检验是否安装成功
#python --version
Python 3.7.4 #表示安装成功
离线安装Python插件
批量安装:
#pip install --no-index --find-links=./plugin/ -r requirements.txt
部署引擎包
解压到安装目录
#tar -zxvf SmartbiMiningEngine-V9.6.56248.20231.tar.gz -C /opt
创建Python执行用户
创建用户
useradd mining-py
设置用户密码
passwd mining-py
给引擎安装目录附权限(为了使用mining-py用户启动执行代理程序时候,有权限创建data跟logs目录)
chmod 777 /opt/smartbi-mining-engine-bin
启动python执行代理
通过系统管理员登录smartbi
系统选项—引擎设置
登录到python节点机器,并切换到mining-py用户
注意 | ||
---|---|---|
| ||
为了避免出现安全问题,一定要切换到mining-py用户去启动执行代理服务,不要使用安装用户或带有sudu权限的用户来启动执行代理服务。 |
|
切到引擎启动目录
|
把拷贝命令粘贴,例如:
./agent-daemon.sh start --master http://smartbi-engine:8899 --env python
详细的升级文档请参见:Python执行节点更新 。6版本Python计算节点升级参考文档:数据挖掘引擎V95升级Beta版本
高性能版本Python计算节点升级参考文档:高性能版本-数据挖掘V95升级Beta版本
UI调整
1、数据源按照以下顺序排序:
- “全部”标签页中,数据库分为“常用数据库”与“所有数据库”:常用数据库:按数据库的新建次数由高到低排序;所有数据库:按照字母顺序排序。
- “本地数据库、关系数据库、多维数据库、NoSQL数据库”页签中,所有数据库按照字母顺序排序。
- Other数据源不按字母排序,位置在所有数据库和关系数据库最后。
2、在系统设置页面右上角增加麦粉社区的链接,链接到麦粉社区首页。
功能影响
自助仪表盘组件联动
删除筛选器应用于组件的“高级设置”选项、“合并参数”选项,所有的联动关系都在全局的联动设置中设置。