...
服务名称 | 简介 | 备注 |
---|---|---|
数据挖掘-实验引擎 | 负责接收smartbi 发送实验执行请求。 通过解析实验定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。 本身并不承担计算任务,只负责计算任务的调度跟分发。 | |
数据挖掘-服务引擎 | 提供模型预测服务给第三放系统调用 | |
Spark | 分布式计算平台,主要承担实验引擎发送过来的计算任务,其中Worker实例可以横向扩展 | |
Zookeeper | 用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。 | |
Hadoop | 分布式系统基础平台,主要存储计算任务的中间结果数据。 | 可不安装 |
Python执行节点 | python 执行环境,主要承担实验引擎发送过来的python计算任务。 可以横向扩张,实验引擎会根据负责均衡策略把python计算任务分发到不同节点。 | |
Smartbi Proxxy | 负载均衡服务器,用于数据挖掘服务引擎代理。 |
...
名称 | 软件包文件 | 说明 |
---|---|---|
数据挖掘引擎 | Smartbi-mining-engine-bin.tar.gz | 数据挖掘引擎主程序 |
Sparkspark-32.04.0-bin-hadoop2.7.tgz | Spark,用于数据挖掘计算 | |
hadoop-2.7.3.tar.gz | Hadoop,部署数据挖掘集群时需要安装 | |
zookeeper-3.4.13.tar.gz | Zookeeper,部署数据挖掘集群时需要安装 | |
bzip2python-13.09.6-13.el7.x86_64.rpm Anaconda3-2019.10-Linux-x86_64.sh 离线插件包:plugin.zip
| Python,用于数据挖掘执行python计算任务 如不需要执行Pyhon计算任务,可不安装 | |
JDK | jdk-8u181-linux-x64.tar.gz | JAVA运行环境 |
关于映射主机名和IP地址
注意 | ||
---|---|---|
| ||
部署数据挖掘时,需要将Smartbi和数据挖掘组件中的服务器主机名映射到每台服务器的/etc/hosts文件中, 数据挖掘组件之间的通信会使用到主机名,如果未配置主机名和地址映射,数据挖掘在运行过程中会报错, smartbi配置数据挖掘连接地址后,重启后smartbi后,数据挖掘地址会自动转换从数据挖掘服务器的主机名。 |