页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

Smartbi Mining平台是一个注重于实际生产应用的数据分析预测平台,它旨在为个人、团队和企业所做的决策提供预测。该平台不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了企业成本,可以将数据挖掘结果发送到Smartbi统一平台,与商业智能平台实现了完美整合。

它涵盖了主流数据挖掘产品的基本功能,且拥有自己的特色:

 

一站式体验

业务用户可以在摒除技术层面的情况下,快速创建自己的工作流或模型,并且将这些工作流和模型应用于实际工作中:可以将处理后的数据基于Smartbi定制分析报告等。

应用实现的流程如下:

1)通过拖拽的方式定制工作流或模型。

2)保存工作流或模型。

3)利用Smartbi报表功能进行分析报告定制。

快捷的学习导向

平台内置了12个具有代表性的应用案例,初学者可以基于对案例的学习,或者修改案例现有工作流部分节点的方式快速掌握Smartbi Ming的使用。

 Image Removed

强大的数据服务应用能力

将训练完成的模型或工作流以服务的形式发布,可以实现用户自助式地对新数据进行预测评估或处理。

1、 支持服务部署

服务部署的作用是将已经训练好的优化预测模型部署成为Web服务,提供API供实际业务使用。 用户可直接通过调用该API向其发送数据,获取优化模型的预测数据。它也支持实时或者以批处理模式发送数据。

基于已保存的训练模型,场景案例数据(服务输入),即可通过服务输出查看预测数据,点击部署服务,则自动保存到服务管理之中。

 Image Removed

2、 服务查看和删除

对于部署好的服务可以进行统一的管理,可直接使用其API或者执行删除操作。如若需要删除,即点击服务对应地方的删除按钮即可。

 Image Removed

在服务管理下的服务列表中点击对应模型的服务,可以查看服务API的信息,也可以直接在程序中通过调用该API,得到模型预测数据,此外也支持修改服务的配置信息,例如服务别名、服务描述。

 Image Removed

在调用服务之前,可对服务API进行相应的测试,确保API能正常使用,返回数据是否达到需求。例如输入测试数据,服务会返回测试结果。

 Image Removed

3、 已优化的训练模型的保存和应用

保持已优化的训练模型是指将用户自定义的模型持久化到平台下,方便后续的使用。

操作入口:在“训练”节点的右键菜单中,点击 保存模型,输入相关的模型名称及信息:

 Image Removed

该模型即会保存到已训练模型文件夹下:

 Image Removed

用户可直接拖拽已训练好的模型使用,无需再次训练,但是需要注意所使用的特征需要与训练模型时的特征保持一致。

 Image Removed

 

4、 支持模型的查看和删除

对已训练好的模型进行统一的管理:

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录

Image Removed

多样性的数据源库和目标库支持

1、 数据来源:支持读取多种数据源

Smartbi Mining平台支持五类数据来源:第一种是从hdfs读取数据,第二种是内置案例的数据源,第三种是Smartbi关系型数据源,第四种是将本地读取数据上传到高速缓存库然后通过关系型数据源读取数据,第五种是来源于Smartbi的数据集。

数据来源类型

对应节点

设置

从hdfs读取数据

 Image Removed Image Removed

内置案例数据源

 Image Removed

 

Smartbi关系型数据源

 Image Removed Image Removed

将本地读取数据上传到高速缓存,然后通过Smartbi关系数据源读取

 Image Removed Image Removed

Smartbi数据集

 Image Removed

 

配置及使用详情请参见:

2、数据目标源:支持Smartbi多种数据源

将实验过程中的数据,导出到关系数据源中,例如:ClickHouse、Oracle、HDFS。可提供给Smartbi使用。

平台除了支持将数据导出到以上的关系数据库中,也支持将数据导出到Smartbi的数据库中,方便用户直接使用数据进行其它操作。目前支持Smartbi的数据库包含:Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL。

 Image Removed

它的操作较简单,只需配置其参数即可。

配置及使用详情请参见:

丰富的数据预处理方法

1、 支持拆分、过滤、增加序列号等多种数据预处理方法

通过对数据进行相应的预处理,即可将异常数据进行清洗。

目前平台可支持的常规预处理方法包含:随机采样、加权采样、分层采样、数据拆分、字段过滤与映射、列选择、过滤空值、合并列、合并行、JOIN、元数据编辑、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列、类型转换。

 Image Removed

各预处理方法的使用详情请参见:

2、 支持数据选择、转换、离散、主成分特征提取等操作

平台支持数据的特殊处理:将连续型数据进行离散化、将字符型数据转换成为离散型数据、对高维数据进行降维提取主成分特征等操作,它还支持根据需要预测的目标,为用户自动选取特征。

Image Removed

以上操作方法的使用详情请参见:

 

3、 支持自动调参

平台支持为所有算法自动最优调参。

Image Removed

这些特殊的处理操作可轻松帮助用户利用有效数据以及帮助用户从众多数据找出有价值的数据。

以上操作方法的使用详情请参见:

3、无缝集成SQL脚本语言

平台可支持SQL语言,满足高级分析需求,实现自定义算法的快速集成与新增。

Image Removed

大量实用的机器学习算法

该平台支持多种高效实用的机器学习算法,包含了分类、聚类、回归等算法,其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型。

1、 支持机器学习中多种分类、回归、聚类的经典算法

平台支持的分类预测算法:逻辑回归、朴素贝叶斯、支持向量机、决策树、随机森林。分类预测算法主要用于类别预测划分。使用场景:疾病预测、用电违约预测、种类划分、换机预测、银行理财产品定购预测、信用预测。

Image Removed

平台支持的回归预测算法:线性回归。 回归预测方法主要用于走势预测。使用场景:天气预测、房价预测、股票预测。

Image Removed

平台支持的聚类算法:K均值、混合高斯模型、DBSCAN。 聚类算法主要用于特征分群。使用场景:企业信息聚类、葡萄酒种类识别。

Image Removed

这些经典的算法,高效易用,可满足用户不同的使用场景,帮助客户轻松实现数据挖掘。

这些算法使用详情请参见:

灵活的扩展接口

1、      支持Python、JAVA定制开发新节点

支持自定义Python或JAVA代码,灵活帮助用户扩展算法库及资源树节点。

自定义类型

代码示例

示例效果

Python
代码定制

Image RemovedImage Removed

JAVA
代码定制

Image RemovedImage Removed

 

可视化效果

平台的可视化效果主要包含的内容有:工作流定制可视化、数据可视化、模型可视化、分析结果可视化。

1、  工作流定制可视化:拖拽节点和连线,直观流式建模

工作流定制通过拖拽节点资源到画布及拖拽节点间连线实现,所见即所得:

Image Removed

2、  数据可视化:预处理数据结果的可视化效果

支持查看各预处理方法执行后的数据结果,该结果通常以表格的形式展现。

操作入口

在各预处理方法节点的右键菜单中选择 查看输出

Image Removed

输出效果

 

 

3、  分析结果可视化:支持相关性分析、平行坐标、散点图等多种统计分析和图表

平台的“统计分析”目录下支持多种分析类型,可以实现相关性分析、平行坐标轴、散点图等多种统计分析和图表。

Image Removed

以上分析的可视化效果实现:将这些分析节点拖拽到画布相应的工作流中,在其右键菜单中选择 查看分析结果

 

各分析类型的效果如下:

分析类型

效果

相关性分析

Image Removed

平行坐标

Image Removed

散点图

Image Removed

详情请参见:

直方图

Image Removed

箱线图

Image Removed

 

完美的备份机制

为了避免数据的意外受损,无论是Smartbi Ming平台还是Smartbi系统都支持对资源备份,用户可以根据自身的需要选择相应的方式。

1、 工作流导出导入

工作流备份是指将工作流DAG资源单独导出到本地,文件后缀名为“.smartbim”命名。

Image Removed

2、 资源导出导入

平台支持一个或者多个案例资源导入和导出。资源导入是指将本地的案例资源导入到系统知识库。该功能与资源导出配合使用,常用于开发机与生产机系统间资源文件的迁移。平台支持从本地导入一个或者多个案例资源到系统中。此外,平台也可以从系统中导出资源,它是指将系统知识库中的案例资源以“.xml”的格式导出到本地。当导出案例资源时,导出案例资源会包含其名称,描述信息以及参数信息等。

Image Removed

3、知识库备份恢复

知识库备份是指以“.zip”的格式将知识库中所有的资源文件存储到本地。

知识库备份可以用于知识库迁移,对知识库进行定期的备份可以帮助用户保护其数据免受意外的损失。

备份的知识库通过恢复操作实现知识库数据的还原。

Image Removed

 

严格的权限机制

1、操作权限控制

平台的功能模块“数据处理”和“数据挖掘”通过角色的操作权限进行功能入口控制:

Image Removed

2、 并发量控制

通过控制大数据引擎的用户并发数,可以完成对平台数据处理的调优。

 

多方位的监控机制

1、 作业监控

作业是对数据处理项目结合调控机制的统称,对作业的监控包含了对数据处理项目执行情况及其调度内容的监控。

功能入口:在“定制管理”界面单击快捷菜单 作业监控 进入到“作业监控”界面。

Image Removed

 

各监控操作详情请参见:

2、 服务监控

服务监控是指对所有已经搭建的服务工作流进行状态统计及相关操作管理。

功能入口:在“定制管理”界面单击快捷菜单 服务监控 进入到“服务监控”界面。

Image Removed

该界面各项操作详情请参见:

 

3、引擎组件监控

引擎组件监控主要是监控引擎的运行状况,包括运行实验状况、缓存、jvm的内存、线程等等。

提供给管理员用于系统维护支持。

功能入口:在“管理员”的下拉菜单中选择 系统监控,进入到“系统监控”界面后再选择 引擎组件监控

Image Removed

 

4、计算组件监控

计算组件监控是指计算节点运行状态,即spark集群运行状态的监控。

提供给管理员用于系统维护支持。

功能入口:在“管理员”的下拉菜单中选择 系统监控,进入到“系统监控”界面后再选择 计算组件监控

Image Removed

 

4、  操作日志

系统将自动记录“数据处理”和“数据挖掘”各项操作的详情日志。

日志详情记录便于管理员的跟踪和维护。

Image Removed

 

       当我们面对海量数据时,传统的BI技术只能够用以掌握基本情况,而数据之间的关联关系则需要进一步的挖掘分析,从而获得更多的信息和价值。

       基于种种实际需求,Smartbi Mining产品应运而生,它是一个注重于实际生产应用的数据分析预测模块,它旨在为个人、团队和企业所做的决策提供预测。它不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了企业成本,可以将数据挖掘结果发送到Smartbi统一平台,与商业智能平台实现了完美整合。

产品特色

它涵盖了主流数据挖掘产品的基本功能,且拥有自己的特色:

经典挖掘案例展示,快速了解BI数据挖掘

平台内置了12个挖掘案例,涉及金融、地产、医疗等行业,向用户展示如何使用Smartbi Mining进行数据挖掘。

一站式体验,轻松打造自己的数据挖掘模型

  • 多样性的数据源库和目标库支持

       数据的输入支持文本数据源,关系数据源,示例数据源以及Smartbi数据集,而数据输出的目标库支持关系型数据库,HDFS,也可以直接导入Smartbi数据库中,利用平台的分析工具,对挖掘结果做进一步展现。

  • 丰富的数据预处理方法

       数据预处理部分包括异常值处理、关键数据提取、数据整理归类等负责数据清洗的工作节点, 同时也包括PAC主成分、特征选择、特征转换等常用的特征工程方法。

  • 大量实用的机器学习算法

       平台提供分类、回归、聚类、关联规则等常见算法工作节点,只需要调整参数,便可以直接使用算法进行数据分析。如果现有算法节点无法满足模型搭建的需求,Smartbi Mining 提供灵活的扩展接口,支持自定义Python或JAVA代码,帮助用户扩展算法库及资源树节点。

  • 可视化展现

       平台的可视化效果主要包含的内容有:工作流可视化、数据可视化、模型可视化、分析结果可视化,使得整个数据挖掘过程逻辑清晰,便于交流。

  • 模型保存,工作流导出

       平台支持将优化好的模型直接保存下来,之后实验直接使用该模型训练好的参数,不需要再一次进行调参工作。并且,整个工作流DAG资源也支持导出导入,方便实验的迁移和交流。

  • 服务发布,模型共享

        可以将训练好的模型以服务的形式发布,外部人员按照正确的方式连接后,便可以使用该模型进行相关的数据挖掘工作。

可视化性能监控,严格权限控制,便于管理

  • 多方位的监控机制

      为了方便整个实验流程各方面性能的监控,Smartbi Mining 提供作业监控、服务监控、实验监控、计算节点以及操作日志的可视化窗口。

  • 操作权限设置

      基于安全性的考虑,Smartbi Mining 采用Smartbi一贯的权限机制,对用户的操作浏览权限进行控制。

应用实例

我们以预测银行客户流失来介绍本产品的数据挖掘:

背景介绍:

银行业务在实际发展过程中面临最大问题就是客户的流失,业界和学术绝提出客户关系管理的概念,即对客户留存期间产生的数据进行分析,找出流失客户具备的特征,对具有这些特征的客户进行及时的关怀工作。那么,这个分析应该如何实现呢?

解决方案:

Smartbi Mining提供从原始数据源连接、数据预处理、构建数据挖掘模型,可视化展现整个流程数据挖掘流程。如下图所示:

Image Added

详细流程:

  1. 【银行客户数据】包括客户留存期间,银行积累了大量的历史业务数据以及客户信息数据,这些数据通常涉及到用户交易记录、银行接触频率、产品数量、活跃度、薪资收入水平、客户在行时间、客户单产品收益率、客户代缴费等各个方面的数据,通过Smartbi Mining的关系数据源节点,可以将这些数据直接读出来;
  2. 再借助数据预处理节点,例如【特征选择】、【特征离散】、【特征拟合】、【特征变化】等完成繁琐的数据清洗工作;
  3. 使用现成的算法模型,只要进行适当的参数调试,就可以实现模型的构建。如果现有节点不能满足需求,可以使用【PYTHON脚本】等节点,开发自定义算法节点;
  4. 分析结果可以直接在Smartbi Mining进行可视化展现,也可以将模型输出结果保存,使用Smartbi BI分析展现功能对结果进行深入解读;
  5. 模型不断调试过程中,需要进行不同参数之间对比工作,Smartbi Mining支持将训练好的模型保存,其他实验直接使用。同时也可以导出工作流,便于团队间的交流和分享;

Smartbi Mining将数据分析中繁重、琐碎的清洗工作移交给工具,可视化展现部分也引进丰富多样的展现方式,数据分析人员只需要聚焦于数据挖掘工作本身。

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录