...
3 SQL查询数据抽取(具体介绍)
4 原生SQL查询数据抽取
5 存储过程查询数据抽取
6 Java查询数据抽取
7 透视分析数据抽取
当我们选择透视分析数据抽取后,勾选 抽取数据到临时表中 则报表立即进行数据抽取,把数据存储到自动生成的临时表中。
抽取完成后,我们此刻再对此透视分析进行刷新等操作时,则数据会从临时表中读取,从而达到提高性能的目的。
8 组合分析数据抽取
组合分析抽取只有实时和全量抽取两种方式。
9 加载Excel数据数据抽取
...
...
数据抽取出来后,会以视图的形式存放在SmartbiMpp数据源下,后续创建组合分析、透视分析、可视化查询、SQL查询等时SmartbiMpp数据源可以当做一般关系源使用。
目前系统中支持数据抽取的有:自助数据集、可视化查询、SQL查询、原生SQL查询、存储过程查询、Java查询、透视分析、组合分析、加载Excel数据。
系统支持通过数据行权限控制,保证所有用户抽取到其权限内的数据的有:可视化查询、组合分析、自助数据集。
注:V8.0及之前版本只有自助数据集可以做数据抽取,V8.5版本中,SQL查询等非自助数据集以及加载Excel数据支持抽取到高速缓存库。
数据抽取功能必须要在当前数据集保存的前提下才能被激活使用。
抽取设置
目前系统支持三种抽取的设置:
1、实时:表示不抽取。
2、全量抽取:类似于数据迁移或数据复制,它将当前数据集数据原封不动的从数据库中抽取数据。
3、增量抽取:指抽取自上次抽取以来抽取的数据集中新增、修改、删除的数据。
在数据抽取过程中,对于抽取异常的情况,系统提供两种处理机制:
1、回滚:表示返回到数据抽取前的状态,抽取数据出错时会立即停止抽取。
2、继续:表示抽取数据出错时会继续抽取下一条数据,并将这条错误数据写入异常日志,供后面下载查看异常原因。
数据抽取在抽取时间上,允许“立即抽取”或者“定时抽取”到高速缓存中,其中定时抽取是通过定制计划任务实现,具体的设置请参见计划章节。
数据行权限控制的有:自助数据集、可视化查询、组合分析。
执行用户中有:
1、资源创建者:管理员(系统默认)。
2、特定用户:指定用户抽取到权限内的数据。
统一数据集的抽取功能
1 自助数据集数据抽取
使用自助数据集设置数据抽取,在之后创建自助仪表盘时会直接从SmartbiMpp里取数据,提高系统性能。
操作步骤
1.新建自助数据集并 保存,点击右上方的抽取图标后点击 设置,在弹出的界面中选择抽取方式,默认为全量抽取,界面如下:
增量抽取设置窗口如下图所示:
2 可视化查询数据抽取
操作入口:单击可视化查询工具栏中的 数据抽取 按钮,弹出“数据抽取设置”窗口。如下图所示:
入口及界面
1、非自助数据集及组合分析:在已保存的非自助数据集或组合分析的编辑界面,单击工具栏上的 抽取 按钮(),打开“数据抽取设置”窗口。
2、自助数据数据集:在已保存的自助数据集的编辑界面,先单击工具栏上的 抽取 按钮(),再单击旁边的 设置(),打开“数据抽取设置”窗口。
设置说明
非自助数据集和组合分析的数据抽取功能不支持“增量抽取”。
“数据抽取”窗口中的设置项说明如下:
界面介绍 | 分类 | 功能说明 | |
---|---|---|---|
抽取方式 | 实时 | 表示不抽取。其中,自助数据集的不抽取设置通过 实时 按钮()实现。 | |
全量抽取 | 清空数据 |
| |
增量抽取 | 增量抽数据按时间戳 | 指与上次抽取结果中最大时间对比,将大于这个时间的数据进行集中抽取。 目前只有自助数据集支持增量抽取,且只有自助数据集中含有时间信息的字段才支持增量抽取。 | |
增量字段 | 表示与上次抽取结果的最大时间进行比对的字段,必须将记录了时间信息的字段做为增量字段。 | ||
时间格式 | 时间格式用于将非DATE或非DATETIME类型的增量字段进行格式转化。例如:若增量字段为“订单日期”,“订单日期”是“string”类型,数值是“20150101”,则我们需要设置其时间格式为“YYYYMMDD”。 | ||
忽略抽取当天数据 | 表示不包含当天的增量数据。 | ||
覆盖最后抽取的N天数据 | 表示根据时间戳,重新抽取并覆盖高速缓存库中当前自助数据集的最后N天数据。目前只支持Vertica类型的高速缓存库允许“覆盖最后抽取的N天数据”设置项。 | ||
异常处理 | 回滚 | 表示返回到数据抽取前的状态。 | |
继续 | 表示继续抽取下一条数据,并将这条错误数据写入异常日志,供用户下载查看异常原因。 | ||
执行用户
| 资源创建者 | 表示当前自助数据集的创建用户,将只抽取该创建用户拥有的数据行权限内的数据。数据行权限详情请参考 数据权限。 | |
特定用户 | 表示指定抽取的用户,通过用户名和密码指定,将抽取该指定用户拥有的数据行权限内的数据。数据行权限详情请参考 数据权限。 | ||
抽取时间 | 立即抽取 | 表示立即抽取数据到高速缓存库。 | |
定时抽取 | 表示根据时间计划将数据定时抽取到高速缓存,其中定时抽取通过定制计划任务实现,详情请参见 计划 章节。 |
上表中的“执行用户”设置项用于保证:只允许抽取资源创建者数据行权限内的数据。目前只有“可视化查询”、“组合分析”和“自助数据集”的数据抽取受数据行权限控制。
数据抽取示例
当选择“全量抽取”并勾除“清空数据”时,用户需要在定义数据集时,添加标识符字段用于区分抽取数据的历史版本。
如下示例中添加了“日期标识”字段,用日期来区分不同时间抽取的数据。
示例效果
在高速缓存库中浏览该资源的数据,结果如图,包括了2018-12-19和2018-12-20抽取的数据:
设置方法
1、抽取2018-12-19的数据。
1)点击SQL查询工具栏的 数据抽取 按钮,如图:
2)弹出“数据抽取设置”界面,选择“全量抽取”后,点击 立即抽取 :
2、抽取2018-12-20的数据。
1)点击SQL查询工具栏的 数据抽取 按钮进行抽取。
2)弹出“数据抽取设置”界面,选择“全量抽取”,勾除“清空数据”后,点击 立即抽取 :
3、进行数据预览。
1)在高速缓存库找到该资源,选中该资源,右键 > 数据集监控管理 > 浏览数据 ,如图:
2)浏览数据效果如图: