数据挖掘组件介绍
部署Smartbi 数据挖掘引擎集群需要部署以下组件:
服务名称 | 简介 | 备注 |
---|---|---|
数据挖掘-实验引擎 | 负责接收smartbi 发送实验执行请求。 通过解析实验定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。 本身并不承担计算任务,只负责计算任务的调度跟分发。 | |
数据挖掘-服务引擎 | 提供模型预测服务给第三放系统调用 | |
Spark | 分布式计算平台,主要承担实验引擎发送过来的计算任务,其中Worker实例可以横向扩展 | |
Zookeeper | 用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。 | |
Hadoop | 分布式系统基础平台,主要存储计算任务的中间结果数据。 | |
Python执行节点 | python 执行环境,主要承担实验引擎发送过来的python计算任务。 可以横向扩张,实验引擎会根据负责均衡策略把python计算任务分发到不同节点。 | |
Smartbi Proxxy | 负载均衡服务器,用于数据挖掘服务引擎代理。 |
所有组件均可按需求单机部署或者部署集群。
数据挖掘集群参考部署流程图:
操作系统推荐:
Linux操作系统平台 | 系统版本 |
---|---|
Red Hat Enterprise Linux | 推荐7.4 及以上 |
CentOS | 推荐7.4 及以上 |
服务配置建议:
组件 | CPU | 内存 | 硬盘 | 网络 | 备注 |
---|---|---|---|---|---|
数据挖掘实验引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟服务引擎在同台机器 |
数据挖掘服务引擎 | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟实验引擎在同台机器 |
Zookeeper | 2核+ | 2G+ | 300G+ | 万兆网卡 | 主要用于实现实验引擎的高可用 |
Spark master | 8核+ | 8G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,可以跟其中一台Spark worker同一台机器 |
Spark worker | 16核+ | 32G+ | 1T+ | 万兆网卡 | 承担计算任务 |
Hadoop namenode | 2核+ | 2G+ | 安装目录300G+ | 万兆网卡 | 如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中 |
Hadoop datanode | 2核+ | 2G+ | 1T+ | 万兆网卡 | 主要承担中间数据存储,如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中 |
Python执行节点 | 16核+ | 32G+ | 1T+ | 万兆网卡 | 主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展 如果没有用到这两个功能模块,可以不用部署python节点 强烈建议最好独立机器,避免资源争抢 |