本文档介绍Smartbi及其各个组件的的功能。

名称说明

SmartbiSmartbi主体应用。

知识库


Smartbi-MPP列式数据库管理系统,用于抽取数据。

Smartbi-UnionServer分布式SQL查询引擎,处在Smartbi的SQL引擎层,为不同的数据源提供统一的SQL解析、跨库查询能力。

Smartbi-Redis


Smartbi-Proxy负载均衡服务器。

导出引擎



数据挖掘-实验引擎

负责接收smartbi 发送实验执行请求。

通过解析实验定义,生成spark 计算任务或python计算任务,分别发送给spark集群或python集群。

本身并不承担计算任务,只负责计算任务的调度跟分发。



数据挖掘-服务引擎提供模型预测服务给第三放系统调用。

Python执行节点

python 执行环境,主要承担实验引擎发送过来的python计算任务。

可以横向扩张,实验引擎会根据负责均衡策略把python计算任务分发到不同节点。



Spark分布式计算平台,主要承担实验引擎发送过来的计算任务。

Hadoop分布式系统基础平台,主要存储计算任务的中间结果数据

Zookeeper用于实现数据挖掘实验引擎和数据挖掘服务引擎的高可用。