V9.6版本不仅在部分功能上有所变化,如果需要进行升级,我们建议您先阅读 V9.5升级到V9.6注意事项 。
{html}<h1 >数据连接</h1>{html} |
众所周知,Sybase IQ 数据库在大数据量的管理上有较大的性能优势,在新版本的加载文件数据功能中,我们支持导入到Sybase IQ数据库,不仅给用户带来的更大的灵活性,也能帮助用户在分析本地大数据量文件的场景中提高分析效率。
在【加载文件数据】中支持文件导入Sybase IQ数据库。
详情参考:加载文件数据
为了方便用户迅速搜索、创建到相应的数据库连接,新版本中我们对各类数据库的显示顺序进行优化。
1、【常用数据库】依据整个系统中创建数据库次数,给用户提供的热门数据库信息。
2、其他分组标签页的数据库(所有数据库、本地数据库、关系数据库、多维数据库、NoSQL数据库)则按字母顺序排序。
Other数据源不按字母排序,位置在所有数据库或关系数据库最后。
{html}<h1 >数据准备</h1>{html} |
为了提高用户开发效率,增强内容的可阅读性,新版本对SQL编辑器增加了高亮显示关键字、折叠代码、输入自动提示等功能。
(1)高亮显示关键字,可折叠括号内的代码,方便用户能一目了然重要内容。
(2)自动提示相关关键字、表、函数等,并支持一键补全,提升用户开发效率。
(3)新增IF函数,满足根据不同的条件输出不同的sql语句的场景;同时支持丰富的快捷键(Ctrl+F等),提高功能的易用性。
关于SQL语句编辑器的功能,详情请参考SQL语句编辑器 。
在使用【加载文件数据】的设置表头功能时,产品默认以首行作为表头,在以前版本中鼠标移动到其他行便容易将其作为表头;但通常情况下表头是无需频繁修改,为了避免上述的误操作,新版本我们是通过点击表头图标方式来设置表头,以此提升用户体验。
在加载文件数据中,取消单击选中行作为表头的功能,改为点击 设为表头 按钮,设置任意行为表头。
在数据抽取功能的实际工作场景中,有些用户每日会增量抽取历史数据到高速缓存库中;如果发生源数据集表结构变更、上次没有抽取到数据等等情况,在以前版本中,产品则会清除高速缓存库中抽取目标表的数据,为了避免丢失高速缓存库中历史数据,在新版本中,产品支持备份抽取目标表和数据,有效保障用户数据安全性。
在系统运维的 系统选项>高级设置 中, 新增“BACKUP_TAB_RETAIN_NUM”设置项,可设置在数据库中保留的备份表的个数,默认为5个。
备份规则:在抽取数据之前,默认备份抽取表(第一次不备份)到数据库中,每抽取一次进行滚动备份,备份到设置的上限后,下次备份则移除最旧的备份表。
注意事项
1、暂不支持抽取目标表数据自动恢复,需要手工恢复。
2、高速缓存库为infobright不支持抽取表备份。
随着数据的爆炸性增长,用户需要抽取的数据量越来越大,所消耗的时间也越多。为了能在数据抽取的过程中了解抽取的状态、获得更多的信息,便于系统运维,新版本对数据抽取的日志进行完善。
1、打开 系统监控>日志 界面,增加了一些抽取过程中的日志信息,如获取总行数、总耗时、入库百分比等等。
2、在抽取监控>抽取日志 的日志列表中不再仅限显示'抽取成功’、'抽取失败',新版本可展示更多的抽取进展、错误信息。
关于数据抽取日志,详情请参考 抽取日志 。
{html}<h1 >数据挖掘</h1>{html} |
目前引擎调度策略是把实验作为整体进行调度,实验中的节点无法脱离出来独立执行。若引擎能够按照节点粒度进行调度,这样会给引擎在功能和扩展性方面带来好处。
V9.6版本,引擎按照节点粒度进行调度,可以带来以下几点优势:
具体在 Smartbi上体现为节点的右键菜单增加“执行该节点”和“从当前节点开始执行”功能项。
机器学习实验往往牵涉多个节点,各节点之间关系也较为复杂,更或者自定义的算法节点只有实验构建者才明白其中的含义;同时在实验构建过程中,可能出现节点复用的情况。因此V9.6版本更新后,在实验和节点增加备注功能、节点增加复制功能,便于实验的交流和提高实验的构建速度。
在画布空白处单击右键,选择“添加备注”,会弹出富文本编辑框,可以添加对实验背景的介绍等内容。
选中需要复制的节点,单击右键,出现‘复制’,也可以同时选中多个节点:
关于节点的备注和复制功能,详情请参考 实验界面介绍 。
kafka是一种高吞吐量的分布式发布订阅消息系统,经常用于实时流数据架构,提供实时分析。它具有高吞吐量、低延迟,每秒可以处理几万条消息,延迟最低只有几毫秒,以及可扩展性、持久性、可靠性、容错性、高并发等优点。因此,Smartbi在V9.6版本新增了Kafka数据源。
Kafka作为数据源,有以上三种使用场景:
这里展示当Kafka作为数据源时的模型自学习:
关于kafka数据源,详情请参考 数据挖掘-数据的输入和输出。
在数据挖掘过程中,原始数据的不均匀分布会影响到数据特征抽取,或者模型学习数据特征的效果,出现错判的情况,我们会对数据进行重采样,对原始数据进行初步加工,对出现频次较高的数据按照一定规则抽取一定数据使得整体分布均匀。
V9.6版本新增下采样节点,可通过移除数据量较多类别的部分数据,使样本达到均衡。
关于数据挖掘的下采样,详情请参考 采样 。
无论是机器学习还是数据分析,总是要面对一大堆数据,总是免不了出现异常值的可能性,,异常值可以大幅度地改变数据分析和统计建模的结果,可能会造成回归、方差分析等统计模型假设的基本假设受影响等问题。
V9.6版本新增异常值处理节点,可对存在异常的数据进行检测和识别,且对识别出的异常值进行处理。
关于数据挖掘的异常值处理,详情请参考 异常值处理。
Smartbi现有的特征选择方法有卡方特征选择和随机森林特征选择,针对不同的数据情况有更丰富的特征选择方法及可对比性,V9.6版本新增GBDT特征选择节点。它的优势在于泛化能力强、模型输出后便于选择特征等。
GBDT是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。V9.6版本,左侧资源树特征过程节点下新增GBDT特征选择节点。
输出特征选择后的特征及其重要程度,以柱图展示如下:
详情参考 数据挖掘-GBDT特征选择【V96待发布】。
数据预处理在众多机器学习算法中都起着重要作用,实际情况中,将数据做归一化处理,消除量纲可以加速优化过程,使模型更好、更快的达到收敛。而在此之前Smartbi的归一化算法是封在其他算法当中,因此为了满足灵活性的需要,V9.6将归一化算法拆分为独立节点。
Smartbi的归一化算法有四种,分别为:正则化、标准化、最小最大值归一化、最大绝对值归一化。
详情参考 数据挖掘-归一化。
高维数据是指具有多个属性的数据,它在我们日常生活中十分常见,比如各种类型的多媒体数据、文档词频数据等等。面对这些高维数据,我们该如何展示各种属性之间的联系和发现它们之间的规律。其实在过去的数十年里,可视化领域已经产生了大量优秀的技术,如散点图矩阵、平行坐标图等,以帮助用户分析这类数据。
V9.6版本新增高维数据可视化节点,支持通过矩阵图和平行坐标图对高维数据进行可视化分析。
矩阵图效果:
平行坐标图效果:
关于数据挖掘的高维数据矩阵,详情请参考 数据挖掘-高维数据矩阵【V96待发布】。
RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。因此Smartbi在V9.6版本新增RFM节点,为更多的营销决策提供支持。
RFM节点通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。V9.6版本,左侧资源树统计分析节点下新增RFM节点。
详情参考数据挖掘-RFM。
评分卡是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型,也是信用风险评估和互联网金融领域常用的建模方法,比如信用卡风险评估、贷款发放等业务。除此之外,在其它领域也能够看到评分卡被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等。
WOE则是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理,之后再计算出WOE值和IV值,根据这两个值来判断变量的预测强度。
因此V9.6版本新增WOE编码节点,可以对字段分箱后计算WOE值和IV值。
在查看分析结果中记录了变量的IV值,分箱区间及每个区间的WOE值。
关于WOE编码,详情请参考 数据挖掘-WOE编码。
在文本分析中,我们会先采用词频编码,根据词频信息进行简单主题聚类或文本分类。但是这种方法忽略了词序信息,也无法判断出两个词语之间的关系。而Word2vec词向量可以很好地解决这个问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。
词向量节点作为文本处理常用的特征工程手段、在情感分析、语义分析上可以用来增加模型准确性、计算相似性等功能。V9.6版本,左侧资源树文本分析节点下新增词向量节点。
在查看输出结果可以看到每个文本对应的词向量:
详情参考数据挖掘-词向量【V96待发布】。
LDA可以用于从海量的文本中,根据统计模型,自动提取出由关键词组成的热门主题,让我们快速知道,这些大量无规则的文本中,主要讲述了什么内容。业务人员在商业分析的过程中也是离不开海量的文本数据,如果将基于LDA的主题分析应用在商业分析上,那么将会给业务人员带来极大的方便。
LDA主题模型主要用来推测文档的主题分布,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 V9.6版本,左侧资源树文本分析节点下新增LDA和主题-词分布(LDA)节点。
数据中潜藏的规律按照以往的聚类,回归等传统分析手段很难被发现,Smartbi Mining新增多层感知机算法节点。多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),通过神经网络中的节点和隐藏层对数据特征进行‘学习’,并以模型形式保存,用于分类、预测等使用场景。
多层感知机作为多分类算法节点与其他机器学习节点同样使用。
关于数据挖掘的多层感知机,详情请参考 多层感知机 。
Smartbi现有的FP-Growth算法输出的是模型根据关联规则推荐的预测结果,在实际应用中,也希望输出对算法挖掘出的关联规则及其支持度,通过这些信息能够发现隐藏在数据集中的有意义的联系。因此在V9.6版本,关联规则支持输出算法挖掘出的频繁项集以及对应的前项、后项。
“模型系数”节点支持输出所有频繁项集,以及所有频繁项集的频率和支持度。
关于FP-Growth算法,请参考 数据挖掘-FP-Growth。
目前Smartbi的挖掘模块中,数据集节点只有选择数据集功能,为了方便用户可以在挖掘的实验界面中新建和编辑数据集,V9.6版本新增了新建、编辑数据集的入口。
V9.6版本在数据集节点的参数设置界面新增了新建、编辑数据集的入口。
关于数据源的数据集,详情请参考 数据集。
在挖掘实验过程中,对每一个执行完的节点资源我们都可以预览该节点的数据,如果可以将预览数据导出到本地,这将便于用户进行后续的处理或分析。
V9.6版本支持预览数据导出到本地,在查看输出窗口新增“下载预览数据”选项。
此处会把预览的数据以csv文件的方式下载到本地,不会下载全量数据,数据量最多100条。
{html}<h1 >分析展现</h1>{html} |
为了使用户能更快、更灵活地设计出理想中的报表,V9.6版本我们在自助仪表盘中增加了鹰眼功能,方便用户自由放大、缩小、还原画布。
1、可缩小画布,轻松查阅报表的全景图;
2、可放大画布,帮助用户以清晰、全面的方式处理细节,
3、可一键自适应画布,有效提升报表设计效率,帮助用户在更短时间内快速完成工作。
关于自助仪表盘鹰眼的功能,详情请参考 鹰眼 。
V9.6版本中,我们对自助仪表盘增加了浏览工具栏,不仅提供一键互动入口(收藏、分享、评论、点赞等),让用户轻松导出想要的数据成果,营造数据分析社交文化;而且实现自由控制工具栏按钮是否显示,以便适用于各种展示场景,保证报表的美观。
功能简介
产品提供针对整张报表级别、组件级别的浏览工具栏的设置入口。
注意事项
目前组件级别支持清单表、交叉表、图形、URL、Tab页设置浏览工具栏。
V9.6版本的热力地图支持自定义配色设置,可以一改系统默认的柔和配色,实现冲击力较强的配色效果,满足用户的视觉需求。
热力地图效果如下:
关于热力图配色设置,详情请参考 图形组件-热力图 。
V9.6版本中我们增强了自助仪表盘的TAB页组件,丰富了页签菜单的设置项,使用户操作页签更加灵活。
1、自由调整页签顺序,减少繁琐的操作步骤。
2、统一的内部组件配置入口,提升用户体验、实现更顺滑的操作效果。
关于TAB页组件的功能,详情请参考 TAB页组件 。
V9.6版本我们优化了自助仪表盘组件之间联动关系的设置,用户可以自定义数据集之间的联动关系。
1、全局联动关系:
自助仪表盘工具栏中,增加 联动设置 按钮,可设置两个及两个以上的数据集/业务主题之间的联动关系。
支持两种方式设置全局联动关系:
2、影响报表和应用于组件:
注意事项
自助仪表盘中数据来源有两个及两个以上的数据集/业务主题,才能进行联动设置。
关于联动设置的功能,详情请参考 联动设置 。
V9.6版本新增了透视分析的度量组功能,丰富了表样的实现:
通过优化后的度量组功能可以快捷的实现如下表样效果:
将“列区”中的“度量组”拖拽到“行区”后效果如下:
其中:
关于透视分析的度量维功能,详情请参考 度量区 。
在实际的报表开发中,我们经常会用到聚合字段(如:销售量的合计值、平均值等)对数据进行统计,对于统计结果我们也希望能够对聚合字段进行过滤(如:销售量>1000),因此V9.6版本增强了过滤条件功能:若输出字段中含有聚合字段,则支持在条件面板中对聚合字段设置过滤条件,从而对报表筛选中相应的数据结果。
透视分析和即席查询支持对输出字段中的聚合字段进行过滤条件设置。如下图所示:
V9.6版本我们优化了回写填报的权限配置操作,可解决用户查看多条规则不方便,设置权限控制规则较为繁琐等问题,增强了用户操作的体验感和便利性。
权限控制面板新增如下按钮:
左侧:新建规则、复制当前规则、删除当前规则按钮可对当前的权限规则进行操作。
右侧:点击查看所有规则、上一条规则、下一条规则按钮可查看和切换其他权限规则。
从产品统一角度考虑,V9.6版本流程资源支持影响性分析、血统分析,使用户了解流程资源影响了哪些资源、对应数据的来源等信息;操作日志报表支持统计流程资源,方便用户进行系统运维和问题排查。
1、流程资源支持影响性分析、血统分析及导出时添加依赖资源。
2、操作日志报表支持统计流程资源。
{html}<h1 >Excel分析</h1>{html} |
V9.6版本更新之后,Excel分析在刷新数据弹窗中新增了“关闭”按钮,支持取消查询。
V9.6版本在Excel分析中支持Smartbi提供的Excel图形模板,用户使用预设的模板,不但能减少配置图形所花费的时间,还能统一图形的展示风格。
在Excel分析的图形中,支持Smartbi提供的Excel图形模板。
电子表格的Web端显示优化,可以解决如下问题:
当电子表格有多个sheet,且每个sheet数据量很大的情况下,前端刷新报表或者导出报表可能会引发出取数很慢等性能问题;
当电子表格有多个sheet,且大部分是明细数据sheet,用户只想在Web端显示汇总数据sheet。
多个sheet的电子表格设计如下:
通过进行Web端显示优化设置,显示所有sheet和指定sheet的效果如下:
显示所有sheet | 设置方法 | |
效果 | | |
显示指定sheet | 设置方法 |
|
效果 |
在Web端导出Excel时,支持选择是否导出公式:
若非导出全部sheet页,则“导出公式”默认为否。
{html}<h1 >其他</h1>{html} |
在实际应用中,针对不同的用户,设置不同的数据权限可控制用户查看的数据不同。同时考虑到产品的统一,V9.6版本关系数据源设置的数据权限,支持在数据挖掘和自助ETL中生效。
1、关系数据源设置的数据权限,支持在数据挖掘和自助ETL中的节点生效。
例如,在关系数据源设置categories表的数据权限。
在自助ETL中的“关系数据源”节点中,设置的数据权限生效。
2、若数据集来源于带数据权限的关系数据源,在数据挖掘和自助ETL中支持“数据集”节点的数据权限也生效。
关于数据挖掘和自助ETL的数据权限设置,详情可参考 数据权限设置—数据挖掘和自助ETL。
背景介绍
为了提高效率和方便业务人员的使用,V9.6版本我们新增了一些简单易用的时间函数,可以满足业务人员需要:
功能简介
1、产品的内置函数中新增了19个时间函数,如图:
2、在定义中改变函数设置方式:新增编辑框可手动添加参数值或拖拽函数;并增加预览功能。
注意事项
1、在参数定义中,不支持写SQL语句获取时间函数。
2、在 系统选项>电子表格>水印 中, “内容”设置项不支持使用新增的时间函数。
3、即席查询、透视分析等资源的表头表尾中,不适用新增的时间函数。
为了方便用户之间的交流互动,更好地提高用户的使用体验,并能够快速解决常见的产品使用问题,V9.6版本我们在系统中添加了麦粉社区的链接及其设置项。
麦粉社区提供了一个沟通互动的平台,主要分为首页、论坛、认证、讲堂、体验、直播等功能模块。用户可以在这里:
1、增加麦粉社区的链接,链接到麦粉社区首页:
2、考虑到部分用户不能使用网络的情况,在系统运维的 系统选项>高级设置 中,增加“是否显示麦粉社区链接入口”设置项,默认值为否。
之前的版本,在流程审批中如果审核的下一个处理人还是当前的处理人时,需要该审核人员重新进入到审批界面才会显示下一个处理信息。为了简化审批操作,我们重新处理了审批逻辑,实现了如果下一个处理人是当前处理人则不需要切换,自动跳转下一个到审批界面。
功能简介
审批通过后下一个处理人仍是当前处理人则自动跳转下一个到审批界面。
在V9.6版本中,产品支持无状态化(即无论是否宕机、切换服务器,无须用户重新登录,保障业务操作不中断、数据/模板不丢失),提高了系统的稳定性。
1、产品通过将会话信息统一存储在分布式缓存数据库Redis 中,实现多个应用服务器共享会话信息,保证服务器重启或切换后,仍然可以正常继续操作(常见部署模式如图所示)。
2、系统提供简单可视化配置 redis 信息入口:
当系统面临大批用户访问,负载过高的时候,系统性能问题以及单点问题就凸显出来;通常会考虑增加多台机器进行横向扩展以此提高整个系统的处理能力。与此同时‘负载均衡’是实现系统高可用性一个关键组件。
Smartbi proxy作为负载均衡服务器,在V9.6版本中我们对其进行优化:采用前后端分离的框架,能保障请求被分发到健康的服务器上,在大流量多元化场景下保证用户业务的持续稳定起到至关重要的作用。
1、健康汇报
各服务器节点定时向smartbi proxy汇报自身的健康状态信息,如果节点属于“断开“的状态的话,则将此节点临时从待选取列表中剔除,以提高系统的可用性。
2、能者多劳
根据各服务器节点的差异性(如上述图的指标:内存/CPU/GC等)判断各节点可用性、服务能力,从而影响请求分发的倾向性,实现'能者多劳’保证请求被分发到健康的服务器上,提升系统的稳定性。(如下图-自定义分发策略的权重)
3、自动告警
若节点的资源使用率达到了设置的阈值,那么会触发告警(发送邮件形式),实现对异常节点进行前端提醒。
产品中ECharts图形的版本统一升级到最新的V4.8.0版本。