页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 96 下一个 »

功能概述

数据抽取是指从源数据库中抽取原始数据到高速缓存库,它可以保证秒级获取大级别量的数据结果,提高系统性能。

系统支持数据抽取功能的模块有:自助数据集、可视化查询、SQL查询、原生SQL查询、存储过程查询、Java查询、组合分析、透视分析、加载Excel数据。

数据抽取功能的机制如下:

1)数据集或分析确定结果字段。

2)发起数据抽取指令后,从源数据库中将字段的所有数据抽取到高速缓存库,在高速缓存库的“DEFAULT”节点下生成对应的视图和字段:

 

3)再次查询当前数据集或分析的数据时,从高速缓存库获取数据。

注:1、数据抽取功能必须在当前数据集已保存的前提下才能被激活使用。

       2、系统支持“可视化查询”、“组合分析”和“自助数据集”通过数据行权限控制数据抽取的结果。

       2. V8.0及以下版本只支持自助数据集允许数据抽取。   


文档目录:

 

界面介绍

在已保存的数据集或透视分析、组合分析的编辑界面,单击工具栏上的 抽取 按钮后点击 设置 按钮,在弹出的界面中选择抽取方式,默认为全量抽取,界面如下:

抽取界面功能介绍如下:

界面介绍分类功能说明

 

抽取方式

实时表示不抽取。
全量抽取(默认)类似于数据迁移或数据复制,它将当前数据集的可见字段(非新建计算字段)从数据库中抽取到高速缓存库。
增量抽取指抽取与上次抽取最大时间对比之后数据集中增量的数据。
异常处理回滚(默认)表示返回到数据抽取前的状态。
继续表示抽取数据出错时会继续抽取下一条数据,并将这条错误数据写入异常日志,供后面下载查看异常原因。

执行用户

 

资源创建者 

(默认)

抽取资源创建者数据权限内的数据。

特定用户设置用户名和密码,抽取特定用户数据权限内的数据。相关权限控制可参考数据权限
抽取时间立即抽取表示将数据立即抽取到高速缓存库中。
定时抽取

表示将数据定时抽取到高速缓存中,其中定时抽取是通过定制计划任务实现,具体的设置请参见计划章节。

 

选择增量抽取时,界面介绍如下:

上图红框标识框为增量抽取设置的核心内容,各设置项说明如下:

设置项说明
增加字段设置若当前数据集是跨数据源的,则允许通过“”增加增量字段设置。
增量字段

表示从业务库中获取增量数据的匹配字段,通过该字段在高速缓存库中与业务库进行比对之后,获取增量数据。

该字段通常以时间字段为准。

忽略抽取当天数据表示除掉当天数据之外的增量数据。
时间格式若时间字段为DATE或DATETIME类型时,时间格式不可选。若时间字段为非DATE或DATETIME类型时,需要设置时间格式。
覆盖最后抽取的N天数据表示根据时间戳,重新抽取高速缓存库中已抽取的数据表中的最后N天数据。只有当高速缓存库为Vertica时,才支持【覆盖最后抽取的N天数据】

操作步骤

全量抽取

1.新建自助数据集并保存。

2.点击工具栏上的抽取图标后如图:

点击 设置 按钮,在弹出的界面中选择抽取方式,默认为全量抽取。

3.选择“立即抽取”,抽取完成后在工具栏会显示“同步完成”。

4.抽取出的数据会以视图形式存放在高速缓存库下下。高速缓存库入口:左侧资源树:数据管理-》数据源-》高速缓存库,点开可以找到抽取的数据。

5 抽取完成后,在高速缓存库下会看到抽取的数据集,右键选择“数据集监控管理“,可以对抽取的数据集进行一些操作。

增量抽取

前两个步骤与全量抽取相同。

3  将度量区所有字段和维度中的“发货日期”设为不可见:

4 抽取方式选择“增量抽取按时间戳”,界面如下:


设置增量字段为订单表中的发货日期:

注:当选择的增量字段为时间类型DATE或DATETIME时,时间格式不可选。

“忽略抽取当天数据”和“覆盖最后抽取的 N天数据”默认不勾选,可根据实际情况勾选。

5.抽取完成后可在高速缓存库下找到视图。若抽取的数据集进行过全量抽取,已经生成了视图,则再进行增量抽取后数据会直接在视图里更新。

                             

 

  • 无标签