多样性的数据源库和目标库支持
1、 数据来源:支持读取多种数据源
Smartbi Mining平台支持五种数据来源:第一种是从hdfs读取数据,第二种是内置案例的数据源,第三种是Smartbi关系型数据源,第四种是将本地读取数据上传到高速缓存库然后通过关系型数据源读取数据,第五种是来源于Smartbi的数据集。
数据来源类型 | 对应节点 | 设置 |
---|---|---|
从hdfs读取数据 | ||
内置案例数据源 |
| |
Smartbi关系型数据源 | ||
将本地读取数据上传到高速缓存,然后通过Smartbi关系数据源读取 | ||
Smartbi数据集 |
配置及使用详情请参见:
2、数据目标源:支持Smartbi多种数据源
将实验过程中的数据,导出到关系数据源中,例如:ClickHouse、Oracle、HDFS。可提供给Smartbi使用。
平台除了支持将数据导出到以上的关系数据库中,也支持将数据导出到Smartbi的数据库中,方便用户直接使用数据进行其它操作。目前支持Smartbi的数据库包含:Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL。
它的操作较简单,只需配置其参数即可。
配置及使用详情请参见:
丰富的数据预处理方法
1、 支持拆分、过滤、增加序列号等多种数据预处理方法
通过对数据进行相应的预处理,即可将异常数据进行清洗。
目前平台可支持的常规预处理方法包含:随机采样、加权采样、分层采样、数据拆分、字段过滤与映射、列选择、过滤空值、合并列、合并行、JOIN、元数据编辑、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列、类型转换。
各预处理方法的使用详情请参见:
2、 支持数据选择、转换、离散、主成分特征提取等操作
平台支持数据的特殊处理:将连续型数据进行离散化、将字符型数据转换成为离散型数据、对高维数据进行降维提取主成分特征等操作,它还支持根据需要预测的目标,为用户自动选取特征。
以上操作方法的使用详情请参见:
3、 支持自动调参
平台支持为所有算法自动最优调参。
这些特殊的处理操作可轻松帮助用户利用有效数据以及帮助用户从众多数据找出有价值的数据。
以上操作方法的使用详情请参见:
4、无缝集成SQL脚本语言
平台可支持SQL语言,满足高级分析需求,实现自定义算法的快速集成与新增。
大量实用的机器学习算法
该平台支持多种高效实用的机器学习算法,包含了分类、聚类、回归等算法,其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型。
1、 支持机器学习中多种分类、回归、聚类的经典算法
平台支持的分类预测算法:逻辑回归、朴素贝叶斯、支持向量机、决策树、渐进梯度决策树、随机森林。分类预测算法主要用于类别预测划分。使用场景:疾病预测、用电违约预测、种类划分、换机预测、银行理财产品定购预测、信用预测。
平台支持的回归预测算法:渐进梯度回归树与线性回归。 回归预测方法主要用于走势预测。使用场景:天气预测、房价预测、股票预测。
平台支持的聚类算法:K均值、高斯混合模型、DBSCAN。 聚类算法主要用于特征分群。使用场景:企业信息聚类、葡萄酒种类识别。
这些经典的算法,高效易用,可满足用户不同的使用场景,帮助客户轻松实现数据挖掘。
这些算法使用详情请参见:
灵活的扩展接口
1、 支持Python、JAVA定制开发新节点
支持自定义Python或JAVA代码,灵活帮助用户扩展算法库及资源树节点。
自定义类型 | 代码示例 | 示例效果 |
Python | ||
JAVA |
可视化效果
平台的可视化效果主要包含的内容有:工作流定制可视化、数据可视化、模型可视化、分析结果可视化。
1、 工作流定制可视化:拖拽节点和连线,直观流式建模
工作流定制通过拖拽节点资源到画布及拖拽节点间连线实现,所见即所得:
2、 数据可视化:预处理数据结果的可视化效果
支持查看各预处理方法执行后的数据结果,该结果通常以表格的形式展现。
操作入口 | 在各预处理方法节点的右键菜单中选择 查看输出。 |
输出效果 |
|
3、 分析结果可视化:支持相关性分析、平行坐标、散点图等多种统计分析和图表
平台的“统计分析”目录下支持多种分析类型,可以实现相关性分析、平行坐标轴、散点图等多种统计分析和图表。
以上分析的可视化效果实现:将这些分析节点拖拽到画布相应的工作流中,在其右键菜单中选择 查看分析结果:
各分析类型的效果如下:
分析类型 | 效果 |
相关性分析 | |
平行坐标 | |
散点图 | 详情请参见: |
直方图 | |
箱线图 |
完美的备份机制
为了避免数据的意外受损,无论是Smartbi Ming平台还是Smartbi系统都支持对资源备份,用户可以根据自身的需要选择相应的方式。
1、 工作流导出导入
工作流备份是指将工作流DAG资源单独导出到本地,文件后缀名为“.smartbim”命名。
2、 资源导出导入
平台支持一个或者多个案例资源导入和导出。资源导入是指将本地的案例资源导入到系统知识库。该功能与资源导出配合使用,常用于开发机与生产机系统间资源文件的迁移。平台支持从本地导入一个或者多个案例资源到系统中。此外,平台也可以从系统中导出资源,它是指将系统知识库中的案例资源以“.xml”的格式导出到本地。当导出案例资源时,导出案例资源会包含其名称,描述信息以及参数信息等。
3、知识库备份恢复
知识库备份是指以“.zip”的格式将知识库中所有的资源文件存储到本地。
知识库备份可以用于知识库迁移,对知识库进行定期的备份可以帮助用户保护其数据免受意外的损失。
备份的知识库通过恢复操作实现知识库数据的还原。
严格的权限机制
1、操作权限控制
平台的功能模块“数据处理”和“数据挖掘”通过角色的操作权限进行功能入口控制:
2、 并发量控制
通过控制大数据引擎的用户并发数,可以完成对平台数据处理的调优。
多方位的监控机制
1、 作业监控
作业是对数据处理项目结合调控机制的统称,对作业的监控包含了对数据处理项目执行情况及其调度内容的监控。
功能入口:在“定制管理”界面单击快捷菜单 作业监控 进入到“作业监控”界面。
各监控操作详情请参见:
2、 服务监控
服务监控是指对所有已经搭建的服务工作流进行状态统计及相关操作管理。
功能入口:在“定制管理”界面单击快捷菜单 服务监控 进入到“服务监控”界面。
该界面各项操作详情请参见:
3、引擎组件监控
引擎组件监控主要是监控引擎的运行状况,包括运行实验状况、缓存、jvm的内存、线程等等。
提供给管理员用于系统维护支持。
功能入口:在“管理员”的下拉菜单中选择 系统监控,进入到“系统监控”界面后再选择 引擎组件监控。
4、计算组件监控
计算组件监控是指计算节点运行状态,即spark集群运行状态的监控。
提供给管理员用于系统维护支持。
功能入口:在“管理员”的下拉菜单中选择 系统监控,进入到“系统监控”界面后再选择 计算组件监控。
5、 操作日志
系统将自动记录“数据处理”和“数据挖掘”各项操作的详情日志。
日志详情记录便于管理员的跟踪和维护。