页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 3 下一个 »

数据挖掘组件介绍

部署Smartbi 数据挖掘引擎单机需要部署以下组件:

服务名称简介备注


数据挖掘-实验引擎

负责接收smartbi 发送实验执行请求。

通过解析实验定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。

本身并不承担计算任务,只负责计算任务的调度跟分发。



数据挖掘-服务引擎提供模型预测服务给第三放系统调用
Spark分布式计算平台,主要承担实验引擎发送过来的计算任务,其中Worker实例可以横向扩展
Hadoop分布式系统基础平台,主要存储计算任务的中间结果数据。
Python执行节点

python 执行环境,主要承担实验引擎发送过来的python计算任务。

可以横向扩张,实验引擎会根据负责均衡策略把python计算任务分发到不同节点。


所有组件均可按需求单机部署或者部署集群。

数据挖掘集群参考部署流程图:

操作系统推荐:

Linux操作系统平台系统版本

Red Hat Enterprise Linux

推荐7.4 及以上

CentOS

推荐7.4 及以上

服务配置建议:

组件CPU内存硬盘网络备注

数据挖掘实验引擎

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟服务引擎在同台机器

数据挖掘服务引擎

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟实验引擎在同台机器

Spark master

8核+

8G+

安装目录300G+

万兆网卡

如果资源紧张,可以跟其中一台Spark worker同一台机器

Spark worker

16核+

32G+

1T+

万兆网卡

承担计算任务

Hadoop namenode

2核+

2G+

安装目录300G+

万兆网卡

如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中

Hadoop datanode

2核+

2G+

1T+

万兆网卡

主要承担中间数据存储,如果资源紧张,CPU不做特别要求,可以部署在spark集群机器中


Python执行节点


16核+


32G+


1T+


万兆网卡

主要用于机器学习的DBSACN算法和自定义模块的python脚本扩展

如果没有用到这两个功能模块,可以不用部署python节点

强烈建议最好独立机器,避免资源争抢

  • 无标签