页面历史

...

服务名称	简介	备注
数据挖掘-实验引擎	负责接收smartbi 发送实验执行请求。通过解析实验定义，生成spark 计算任务或python计算任务，分别发送给spark集群或python集群。本身并不承担计算任务，只负责计算任务的调度跟分发。
数据挖掘-服务引擎	提供模型预测服务给第三放系统调用
Spark	分布式计算平台，主要承担实验引擎发送过来的计算任务，其中Worker实例可以横向扩展
Zookeeper	用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。
Hadoop	分布式系统基础平台，主要存储计算任务的中间结果数据。	可不安装
Python执行节点	python 执行环境，主要承担实验引擎发送过来的python计算任务。可以横向扩张，实验引擎会根据负责均衡策略把python计算任务分发到不同节点。
Smartbi Proxxy	负载均衡服务器，用于数据挖掘服务引擎代理。

...

名称	软件包文件	说明
数据挖掘引擎	Smartbi-mining-engine-bin.tar.gz	数据挖掘引擎主程序
	Sparkspark-2.4.0-bin-hadoop2.7.tgz	Spark，用于数据挖掘计算
	hadoop-2.7.3.tar.gz	Hadoop，部署数据挖掘集群时需要安装
	zookeeper-3.4.13.tar.gz	Zookeeper，部署数据挖掘集群时需要安装
	bzip2python-13.09.6-13.el7.x86_64.rpm Anaconda3-2019.10-Linux-x86_64.sh 离线插件包：plugin.zip `tar`.gz	Python，用于数据挖掘执行python计算任务如不需要执行Pyhon计算任务，可不安装
JDK	jdk-8u181-linux-x64.tar.gz	JAVA运行环境

关于映射主机名和IP地址

注意

title	注意事项

部署数据挖掘时，需要将Smartbi和数据挖掘组件中的服务器主机名映射到每台服务器的/etc/hosts文件中，

数据挖掘组件之间的通信会使用到主机名，如果未配置主机名和地址映射，数据挖掘在运行过程中会报错，

smartbi配置数据挖掘连接地址后，重启后smartbi后，数据挖掘地址会自动转换从数据挖掘服务器的主机名。

关注我们

服务支持