页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

服务名称简介备注


数据挖掘-实验引擎

负责接收smartbi 发送实验执行请求。

通过解析实验定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。

本身并不承担计算任务,只负责计算任务的调度跟分发。



数据挖掘-服务引擎提供模型预测服务给第三放系统调用
Spark分布式计算平台,主要承担实验引擎发送过来的计算任务,其中Worker实例可以横向扩展
Zookeeper用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。
Hadoop分布式系统基础平台,主要存储计算任务的中间结果数据。可不安装
Python执行节点

python 执行环境,主要承担实验引擎发送过来的python计算任务。

可以横向扩张,实验引擎会根据负责均衡策略把python计算任务分发到不同节点。


Smartbi Proxxy负载均衡服务器,用于数据挖掘服务引擎代理。

...

名称软件包文件说明




数据挖掘引擎


Smartbi-mining-engine-bin.tar.gz数据挖掘引擎主程序
Sparkspark-2.4.0-bin-hadoop2.7.tgzSpark,用于数据挖掘计算
hadoop-2.7.3.tar.gzHadoop,部署数据挖掘集群时需要安装
zookeeper-3.4.13.tar.gzZookeeper,部署数据挖掘集群时需要安装

bzip2python-13.09.6-13.el7.x86_64.rpm

Anaconda3-2019.10-Linux-x86_64.sh

离线插件包:plugin.zip

tar.gz

Python,用于数据挖掘执行python计算任务

如不需要执行Pyhon计算任务,可不安装

JDKjdk-8u181-linux-x64.tar.gzJAVA运行环境

关于映射主机名和IP地址

注意
title注意事项

部署数据挖掘时,需要将Smartbi和数据挖掘组件中的服务器主机名映射到每台服务器的/etc/hosts文件中,

数据挖掘组件之间的通信会使用到主机名,如果未配置主机名和地址映射,数据挖掘在运行过程中会报错,

smartbi配置数据挖掘连接地址后,重启后smartbi后,数据挖掘地址会自动转换从数据挖掘服务器的主机名。