当我们面对海量数据时,传统的BI技术只能够用以掌握基本情况,而数据之间的关联关系则需要进一步的挖掘分析,从而获得更多的信息和价值。
基于种种实际需求,Smartbi Mining产品应运而生,它是一个注重于实际生产应用的数据分析预测模块,它旨在为个人、团队和企业所做的决策提供预测。它不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了企业成本,可以将数据挖掘结果发送到Smartbi统一平台,与商业智能平台实现了完美整合。
它涵盖了主流数据挖掘产品的基本功能,且拥有自己的特色:
平台内置了12个挖掘案例,涉及金融、地产、医疗等行业,向用户展示如何使用Smartbi Mining进行数据挖掘。
数据的输入支持文本数据源,关系数据源,示例数据源以及Smartbi数据集,而数据输出的目标库支持关系型数据库,HDFS,也可以直接导入Smartbi数据库中,利用平台的分析工具,对挖掘结果做进一步展现。
数据预处理部分包括异常值处理、关键数据提取、数据整理归类等负责数据清洗的工作节点, 同时也包括PAC主成分、特征选择、特征转换等常用的特征工程方法。
平台提供分类、回归、聚类、关联规则等常见算法工作节点,只需要调整参数,便可以直接使用算法进行数据分析。如果现有算法节点无法满足模型搭建的需求,Smartbi Mining 提供灵活的扩展接口,支持自定义Python或JAVA代码,帮助用户扩展算法库及资源树节点。
平台的可视化效果主要包含的内容有:工作流可视化、数据可视化、模型可视化、分析结果可视化,使得整个数据挖掘过程逻辑清晰,便于交流。
平台支持将优化好的模型直接保存下来,之后实验直接使用该模型训练好的参数,不需要再一次进行调参工作。并且,整个工作流DAG资源也支持导出导入,方便实验的迁移和交流。
可以将训练好的模型以服务的形式发布,外部人员按照正确的方式连接后,便可以使用该模型进行相关的数据挖掘工作。
为了方便整个实验流程各方面性能的监控,Smartbi Mining 提供作业监控、服务监控、实验监控、计算节点以及操作日志的可视化窗口。
基于安全性的考虑,Smartbi Mining 采用Smartbi一贯的权限机制,对用户的操作浏览权限进行控制。
我们以预测银行客户流失来介绍本产品的数据挖掘:
背景介绍:
银行业务在实际发展过程中面临最大问题就是客户的流失,业界和学术绝提出客户关系管理的概念,即对客户留存期间产生的数据进行分析,找出流失客户具备的特征,对具有这些特征的客户进行及时的关怀工作。那么,这个分析应该如何实现呢?
解决方案:
Smartbi Mining提供从原始数据源连接、数据预处理、构建数据挖掘模型,可视化展现整个流程数据挖掘流程。如下图所示:
详细流程:
Smartbi Mining将数据分析中繁重、琐碎的清洗工作移交给工具,可视化展现部分也引进丰富多样的展现方式,数据分析人员只需要聚焦于数据挖掘工作本身。