部署Smartbi-Mining数据挖掘-集群

数据挖掘组件介绍

部署Smartbi 数据挖掘引擎集群需要部署以下组件：

服务名称	简介	备注
数据挖掘-实验引擎	负责接收smartbi 发送实验执行请求。通过解析实验定义，生成spark 计算任务或python计算任务，分别发送给spark集群或python集群。本身并不承担计算任务，只负责计算任务的调度跟分发。
数据挖掘-服务引擎	提供模型预测服务给第三放系统调用
Spark	分布式计算平台，主要承担实验引擎发送过来的计算任务，其中Worker实例可以横向扩展
Zookeeper	用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。
Hadoop	分布式系统基础平台，主要存储计算任务的中间结果数据。
Python执行节点	python 执行环境，主要承担实验引擎发送过来的python计算任务。可以横向扩张，实验引擎会根据负责均衡策略把python计算任务分发到不同节点。
Smartbi Proxxy	负载均衡服务器，用于数据挖掘服务引擎代理。

所有组件均可按需求单机部署或者部署集群。

Linux操作系统平台	系统版本
Red Hat Enterprise Linux	推荐7.4 及以上
CentOS	推荐7.4 及以上

组件	CPU	内存	硬盘	网络	备注
数据挖掘实验引擎	8核+	8G+	安装目录300G+	万兆网卡	如果资源紧张，可以跟服务引擎在同台机器
数据挖掘服务引擎	8核+	8G+	安装目录300G+	万兆网卡	如果资源紧张，可以跟实验引擎在同台机器
Zookeeper	2核+	2G+	300G+	万兆网卡	主要用于实现实验引擎的高可用
Spark master	8核+	8G+	安装目录300G+	万兆网卡	如果资源紧张，可以跟其中一台Spark worker同一台机器
Spark worker	16核+	32G+	1T+	万兆网卡	承担计算任务
Hadoop namenode	2核+	2G+	安装目录300G+	万兆网卡	如果资源紧张，CPU不做特别要求，可以部署在spark集群机器中
Hadoop datanode	2核+	2G+	1T+	万兆网卡	主要承担中间数据存储，如果资源紧张，CPU不做特别要求，可以部署在spark集群机器中
Python执行节点	16核+	32G+	1T+	万兆网卡	主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展如果没有用到这两个功能模块，可以不用部署python节点强烈建议最好独立机器，避免资源争抢

关注我们

服务支持