页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。
概述

功能概述

数据抽取是指从源数据源系统抽取目的数据源系统需要的数据,以保证秒级获取大级别量的数据结果,提高系统性能。

数据抽取出来后,会以视图的形式存放在SmartbiMpp数据源下,后续创建组合分析、透视分析、可视化查询、SQL查询等时SmartbiMpp数据源可以当做一般关系源使用。

目前系统中支持数据抽取的有:自助数据集、可视化查询、SQL查询、原生SQL查询、存储过程查询、Java查询、透视分析、组合分析、加载Excel数据。

系统支持通过数据行权限控制,保证所有用户抽取到其权限内的数据的有:可视化查询、组合分析、自助数据集。

数据抽取功能必须要在当前数据集保存的前提下才能被激活使用

注:V8.0及之前版本只有自助数据集可以做数据抽取,V8.5版本中,SQL查询等非自助数据集以及加载Excel数据支持抽取到高速缓存库。

界面介绍

新建自助数据集并 保存,点击右上方的抽取图标Image Removed后点击 设置,在弹出的界面中选择抽取方式,默认为全量抽取,界面如下:

Image Removed

界面介绍分类功能说明

 

抽取方式

实时表示不抽取。
全量抽取(默认)类似于数据迁移或数据复制,它将当前数据集数据原封不动的从数据库中抽取数据。
增量抽取指抽取自上次抽取以来抽取的数据集中新增、修改、删除的数据。
异常处理回滚(默认)表示返回到数据抽取前的状态。
继续表示抽取数据出错时会继续抽取下一条数据,并将这条错误数据写入异常日志,供后面下载查看异常原因。

执行用户

(V8.5新增功能)

资源创建者  管理员系统管理员可以抽取系统的所有数据。
特定用户指定用户抽取权限内的数据。相关权限控制可参考用户管理
抽取时间立即抽取表示将数据立即抽取到高速缓存库中。
定时抽取

表示将数据定时抽取到高速缓存中,其中定时抽取是通过定制计划 任务实现。

选择增量抽取时,界面介绍如下:

Image Removed

上图红框标识框为增量抽取设置的核心内容,各设置项说明如下:

设置项说明
增加字段设置若当前数据集是跨数据源的,则允许通过“Image Removed”增加增量字段设置。
增量字段

表示从业务库中获取增量数据的匹配字段,通过该字段在MPP与业务库进行比对之后,获取增量数据。

该字段通常以时间字段为准。

忽略抽取当天数据表示除掉当天数据之外的增量数据。
时间格式若时间字段为字符串类型时,需要设置时间格式。
覆盖最后抽取的N天数据表示根据时间戳,重新抽取MPP中已抽取的数据表中的最后N天数据。

操作步骤

全量抽取

1.新建自助数据集并保存。

Image Removed

2.点击右上方的抽取图标Image Removed后如图:

Image Removed

点击设置,在弹出的界面中选择抽取方式,默认为全量抽取。执行用户选择系统默认管理员。

这里执行用户可根据需要添加用户权限。

Image Removed

3.选择“立即抽取”,抽取完成后在右上角会显示“同步完成”。

Image Removed

4.抽取出的数据会以视图形式存放在SmartbiMpp数据源下。SmartbiMpp数据源入口:左侧资源树找到数据管理-》数据源-》SmartbiMpp,点开可以找到抽取的数据。

Image Removed

增量抽取

前两个步骤与全量抽取相同。

3 下面删除某些字段后再抽取数据。

将度量区所有字段和维度中的“发货日期”设为不可见:

Image Removed

4 抽取方式选择“增量抽取按时间戳”,界面如下:

Image Removed

设置增量字段为订单表中的发货日期:

注:当选择的增量字段为时间类型时,时间格式不可选。

Image Removed

“忽略抽取当天数据”和“覆盖最后抽取的 N天数据”默认不勾选,可根据实际情况勾选。

5.抽取完成后可在SmartbiMpp数据源下找到视图。若抽取的数据集进行过全量抽取,已经生成了视图,则再进行增量抽取后数据会直接在视图里更新。

 

 

Image Removed                             Image Removed

 

 

toc

是指从源数据库中抽取原始数据到高速缓存库,它可以保证秒级获取大级别量的数据结果,提高系统性能。

系统支持数据抽取功能的模块有:自助数据集、可视化查询、SQL查询、原生SQL查询、存储过程查询、Java查询、组合分析、透视分析、加载Excel数据。

数据抽取功能的机制如下:

1)数据集或分析确定结果字段。

2)发起数据抽取指令后,从源数据库中将字段的所有数据抽取到高速缓存库,在高速缓存库的“DEFAULT”节点下生成对应的视图和字段:

Image Added 

3)再次查询当前数据集或分析的数据时,从高速缓存库获取数据。

注:1、数据抽取功能必须在当前数据集已保存的前提下才能被激活使用。

       2、系统支持“可视化查询”、“组合分析”和“自助数据集”通过数据行权限控制数据抽取的结果。

       3、除“自助数据集”外,其它数据集如果包含参数,则只会抽取参数默认值相关的数据,如果参数没有默认值,将无法正常完成抽取。

       4. V8.0及以下版本只支持自助数据集的数据抽取。   


面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid
文档目录:

目录

 

入口及界面

1、非自助数据集及组合分析:在已保存的非自助数据集或组合分析的编辑界面,单击工具栏上的 抽取 按钮(Image Added),打开“数据抽取设置”窗口。

Image Added

2、自助数据数据集:在已保存的自助数据集的编辑界面,先单击工具栏上的  抽取 按钮(Image Added),再单击旁边的 设置Image Added),打开“数据抽取设置”窗口。

Image Added

设置说明

非自助数据集和组合分析的数据抽取功能不支持“增量抽取”。

“数据抽取”窗口中的设置项说明如下:

界面介绍分类功能说明

 

抽取方式

实时表示不抽取。其中,自助数据集的不抽取设置通过 实时 按钮(Image Added)实现。
全量抽取清空数据
  • 勾选清空数据:清空缓存数据并重新抽取。
  • 勾除清空数据:保留每次抽取的数据记录,并再次抽取所有数据。
    注:勾除清空数据时,用户需要在定义数据集时,添加标识符字段用于区分抽取数据的历史版本。详情请参考 数据抽取示例
增量抽取增量抽数据按时间戳

指与上次抽取结果中最大时间对比,将大于这个时间的数据进行集中抽取。

目前只有自助数据集支持增量抽取,且只有自助数据集中含有时间信息的字段才支持增量抽取。

增量字段

表示与上次抽取结果的最大时间进行比对的字段,必须将记录了时间信息的字段做为增量字段。

时间格式

时间格式用于将非DATE或非DATETIME类型的增量字段进行格式转化。例如:若增量字段为“订单日期”,“订单日期”是“string”类型,数值是“20150101”,则我们需要设置其时间格式为“YYYYMMDD”。

忽略抽取当天数据表示不包含当天的增量数据。
覆盖最后抽取的N天数据示根据时间戳,重新抽取并覆盖高速缓存库中当前自助数据集的最后N天数据。目前只支持Vertica类型的高速缓存库允许“覆盖最后抽取的N天数据”设置项
异常处理回滚表示返回到数据抽取前的状态。
继续表示继续抽取下一条数据,并将这条错误数据写入异常日志,供用户下载查看异常原因。

执行用户

 

资源创建者 

表示当前自助数据集的创建用户,将只抽取该创建用户拥有的数据行权限内的数据。数据行权限详情请参考 数据权限

特定用户表示指定抽取的用户,通过用户名和密码指定,将抽取该指定用户拥有的数据行权限内的数据。数据行权限详情请参考 数据权限
抽取时间立即抽取表示立即抽取数据到高速缓存库。
定时抽取

表示根据时间计划将数据定时抽取到高速缓存,其中定时抽取通过定制计划任务实现,详情请参见 计划 章节。

上表中的“执行用户”设置项用于保证:只允许抽取资源创建者数据行权限内的数据。目前只有“可视化查询”、“组合分析”和“自助数据集”的数据抽取受数据行权限控制。

 

数据抽取示例

当选择“全量抽取”并勾除“清空数据”时,用户需要在定义数据集时,添加标识符字段用于区分抽取数据的历史版本。

如下示例中添加了“日期标识”字段,用日期来区分不同时间抽取的数据。

示例效果

在高速缓存库中浏览该资源的数据,结果如图,包括了2018-12-19和2018-12-20抽取的数据:

Image Added

 

设置方法

1、抽取2018-12-19的数据。

1)点击SQL查询工具栏的 数据抽取 按钮,如图:

Image Added

2)弹出“数据抽取设置”界面,选择“全量抽取”后,点击 立即抽取 :

Image Added

2、抽取2018-12-20的数据。

1)点击SQL查询工具栏的 数据抽取 按钮进行抽取。

2)弹出“数据抽取设置”界面,选择“全量抽取”,勾除“清空数据”后,点击 立即抽取 :

Image Added

3、进行数据预览。

1)在高速缓存库找到该资源,选中该资源,右键 > 数据集监控管理 > 浏览数据 ,如图:

Image Added

2)浏览数据效果如图:

Image Added