页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 105 下一个 »

功能概述

数据抽取是指从源数据库中抽取原始数据到高速缓存库,它可以保证秒级获取大级别量的数据结果,提高系统性能。

系统支持数据抽取功能的模块有:自助数据集、可视化查询、SQL查询、原生SQL查询、存储过程查询、Java查询、组合分析、透视分析、加载Excel数据。

数据抽取功能的机制如下:

1)数据集或分析确定结果字段。

2)发起数据抽取指令后,从源数据库中将字段的所有数据抽取到高速缓存库,在高速缓存库的“DEFAULT”节点下生成对应的视图和字段:

 

3)再次查询当前数据集或分析的数据时,从高速缓存库获取数据。

注:1、数据抽取功能必须在当前数据集已保存的前提下才能被激活使用。

       2、系统支持“可视化查询”、“组合分析”和“自助数据集”通过数据行权限控制数据抽取的结果。

       2. V8.0及以下版本只支持自助数据集允许数据抽取。   


文档目录:

 

入口及界面

1、非自助数据集及组合分析:在已保存的非自助数据集或组合分析的编辑界面,单击工具栏上的 抽取 按钮(),打开“数据抽取设置”窗口。

2、自助数据数据集:在已保存的自助数据集的编辑界面,先单击工具栏上的  抽取 按钮(),再单击旁边的 设置),打开“数据抽取设置”窗口。

设置说明

非自助数据集和组合分析的数据抽取功能不支持“增量抽取”。

“数据抽取”窗口中的设置项说明如下:

界面介绍分类功能说明

 

抽取方式

实时表示不抽取。其中,自助数据集的不抽取设置通过 实时 按钮()实现。
全量抽取表示抽取全部数据,每次抽取都会清空类似于数据迁移或数据复制,它将当前数据集的可见字段(非新建计算字段)从数据库中抽取到高速缓存库。
增量抽取增量抽数据按时间戳

指与上次抽取结果中最大时间对比,将大于这个时间的数据进行集中抽取。

目前只有自助数据集支持增量抽取,且只有自助数据集中含有时间信息的字段才支持增量抽取。

增量字段

表示与上次抽取结果的最大时间进行比对的字段,必须将记录了时间信息的字段做为增量字段。

时间格式

时间格式用于将非DATE或非DATETIME类型的增量字段进行格式转化。例如:若增量字段为“订单日期”,“订单日期”是“string”类型,数值是“20150101”,则我们需要设置其时间格式为“YYYYMMDD”。

忽略抽取当天数据表示不包含当天的增量数据。
覆盖最后抽取的N天数据示根据时间戳,重新抽取并覆盖高速缓存库中当前自助数据集的最后N天数据。目前只支持Vertica类型的高速缓存库允许“覆盖最后抽取的N天数据”设置项
异常处理回滚表示返回到数据抽取前的状态。
继续表示继续抽取下一条数据,并将这条错误数据写入异常日志,供用户下载查看异常原因。

执行用户

 

资源创建者 

表示当前自助数据集的创建用户,将只抽取该创建用户拥有的数据行权限内的数据。数据行权限详情请参考数据权限

特定用户表示指定抽取的用户,通过用户名和密码指定,将抽取该指定用户拥有的数据行权限内的数据。数据行权限详情请参考数据权限
抽取时间立即抽取表示立即抽取数据到高速缓存库。
定时抽取

表示根据时间计划将数据定时抽取到高速缓存,其中定时抽取通过定制计划任务实现,详情请参见计划章节。

上表中的“执行用户”设置项用于保证:只允许抽取资源创建者数据行权限内的数据。目前只有“可视化查询”、“组合分析”和“自助数据集”的数据抽取受数据行权限控制。

  • 无标签