...
组件 | CPU | 内存 | 硬盘 | 网络 | 备注 |
---|---|---|---|---|---|
数据挖掘实验引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟服务引擎在同台机器 |
数据挖掘服务引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟实验引擎在同台机器 |
Zookeeper | 2核+ | 2G+ | 300G+ | 万兆网卡 | 主要用于实现实验引擎的高可用 |
Spark master | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟其中一台Spark worker同一台机器 |
Spark worker | 16核+ | 32G+ | 1T+ | 万兆网卡 | 承担计算任务 |
Hadoop namenode | 2核+ | 2G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中 |
Hadoop datanode | 2核+ | 2G+ | 1T+ | 万兆网卡 | 主要承担中间数据存储,如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中 |
Python执行节点 | 16核+ | 32G+ | 1T+ | 万兆网卡 | 主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展 如果没有用到这两个功能模块,可以不用部署python节点 强烈建议最好独立机器,避免资源争抢 |
安装介质:
名称 | 软件包文件 | 说明 |
---|---|---|
数据挖掘引擎 | Smartbi-mining-engine-bin.tar.gz | 数据挖掘引擎主程序 |
Spark-2.4.0-bin-hadoop2.7.tgz | Spark,用于数据挖掘计算 | |
hadoop-2.7.3.tar.gz | Hadoop,部署数据挖掘集群时需要安装 | |
zookeeper-3.4.13.tar.gz | Zookeeper,部署数据挖掘集群时需要安装 | |
bzip2-1.0.6-13.el7.x86_64.rpm Anaconda3-2019.10-Linux-x86_64.sh 离线插件包:plugin.zip | Python,用于数据挖掘执行python计算任务 如不需要执行Pyhon计算任务,可不安装 |