页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

组件CPU内存硬盘网络备注

数据挖掘实验引擎

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟服务引擎在同台机器

数据挖掘服务引擎

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟实验引擎在同台机器

Zookeeper

2核+

2G+

300G+

万兆网卡

主要用于实现实验引擎的高可用

Spark master

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟其中一台Spark worker同一台机器

Spark worker

16核+

32G+

1T+

万兆网卡

承担计算任务

Hadoop namenode

2核+

2G+

安装目录300G+

万兆网卡

如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中

Hadoop datanode

2核+

2G+

1T+

万兆网卡

主要承担中间数据存储,如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中


Python执行节点


16核+


32G+


1T+


万兆网卡

主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展

如果没有用到这两个功能模块,可以不用部署python节点

强烈建议最好独立机器,避免资源争抢

安装介质:

名称软件包文件说明




数据挖掘引擎

Smartbi-mining-engine-bin.tar.gz数据挖掘引擎主程序
Spark-2.4.0-bin-hadoop2.7.tgzSpark,用于数据挖掘计算
hadoop-2.7.3.tar.gzHadoop,部署数据挖掘集群时需要安装
zookeeper-3.4.13.tar.gzZookeeper,部署数据挖掘集群时需要安装

bzip2-1.0.6-13.el7.x86_64.rpm

Anaconda3-2019.10-Linux-x86_64.sh

离线插件包:plugin.zip

Python,用于数据挖掘执行python计算任务

如不需要执行Pyhon计算任务,可不安装