界面介绍
在已保存的数据集或透视分析、组合分析的编辑界面,单击工具栏上的 抽取 按钮后点击 设置 按钮,在弹出的界面中选择抽取方式,默认为全量抽取,界面如下:
抽取界面功能介绍如下:
入口及界面
1、非自助数据集及组合分析:在已保存的非自助数据集或组合分析的编辑界面,单击工具栏上的 抽取 按钮(),打开“数据抽取设置”窗口。
2、自助数据数据集:在已保存的自助数据集的编辑界面,先单击工具栏上的 抽取 按钮(),再单击旁边的 设置(),打开“数据抽取设置”窗口。
设置说明
非自助数据集和组合分析的数据抽取功能不支持“增量抽取”。
“数据抽取”窗口中的设置项说明如下:
界面介绍 | 分类 | 功能说明 | |
---|---|---|---|
抽取方式 | 实时 | 表示不抽取。 | |
全量抽取(默认) | 类似于数据迁移或数据复制,它将当前数据集的可见字段(非新建计算字段)从数据库中抽取到高速缓存库。 | ||
增量抽取 | 指抽取与上次抽取最大时间对比之后数据集中增量的数据。 | ||
异常处理 | 回滚(默认)表示不抽取。其中,自助数据集的不抽取通过 实时 按钮()实现。 | ||
全量抽取 | 表示抽取全部数据,每次抽取都会清空类似于数据迁移或数据复制,它将当前数据集的可见字段(非新建计算字段)从数据库中抽取到高速缓存库。 | ||
增量抽取 | 增量抽数据按时间戳 | 指与上次抽取结果中最大时间对比,将大于这个时间的数据进行集中抽取。 目前只有自助数据集支持增量抽取,且只有自助数据集中含有时间信息的字段才支持增量抽取。 | |
增量字段 | 表示与上次抽取结果的最大时间进行比对的字段,必须将记录了时间信息的字段做为增量字段。 | ||
时间格式 | 时间格式用于将非DATE或非DATETIME类型的增量字段进行格式转化。例如:若增量字段为“订单日期”,“订单日期”是“string”类型,数值是“20150101”,则我们需要设置其时间格式为“YYYYMMDD”。 | ||
忽略抽取当天数据 | 表示不包含当天的增量数据。 | ||
覆盖最后抽取的N天数据 | 表示根据时间戳,重新抽取并覆盖高速缓存库中当前自助数据集的最后N天数据。目前只支持Vertica类型的高速缓存库允许“覆盖最后抽取的N天数据”设置项。 | ||
异常处理 | 回滚 | 表示返回到数据抽取前的状态。 | |
继续 | 表示抽取数据出错时会继续抽取下一条数据,并将这条错误数据写入异常日志,供后面下载查看异常原因。表示继续抽取下一条数据,并将这条错误数据写入异常日志,供用户下载查看异常原因。 | ||
执行用户
| 资源创建者 | (默认) 抽取资源创建者数据权限内的数据。表示当前自助数据集创建用户,将只抽取该创建用户拥有的数据行权限内的数据。数据行权限详情请参考数据权限。 | |
特定用户 | 设置用户名和密码,抽取特定用户数据权限内的数据。相关权限控制可参考表示指定抽取的用户,通过用户名和密码指定,将抽取该指定用户拥有的数据行权限内的数据。数据行权限详情请参考数据权限。 | ||
抽取时间 | 立即抽取 | 表示将数据立即抽取到高速缓存库中。表示立即抽取数据到高速缓存库。 | |
定时抽取 | 表示将数据定时抽取到高速缓存中,其中定时抽取是通过定制计划任务实现,具体的设置请参见表示根据时间计划将数据定时抽取到高速缓存,其中定时抽取通过定制计划任务实现,详情请参见计划章节。 |
选择增量抽取时,界面介绍如下:
上图红框标识框为增量抽取设置的核心内容,各设置项说明如下:
表示从业务库中获取增量数据的匹配字段,通过该字段在高速缓存库中与业务库进行比对之后,获取增量数据。
该字段通常以时间字段为准。
以上的“执行用户”设置项用于保证:只允许抽取资源创建者数据行权限内的数据。目前只有“可视化查询”、“组合分析”和“自助数据集”的数据抽取受数据行权限控制。
操作步骤
全量抽取
1.新建自助数据集并保存。
2.点击工具栏上的抽取图标 后如图:
点击 设置 按钮,在弹出的界面中选择抽取方式,默认为全量抽取。
3.选择“立即抽取”,抽取完成后在工具栏会显示“同步完成”。
4.抽取出的数据会以视图形式存放在高速缓存库下下。高速缓存库入口:左侧资源树:数据管理-》数据源-》高速缓存库,点开可以找到抽取的数据。
5 抽取完成后,在高速缓存库下会看到抽取的数据集,右键选择“数据集监控管理“,可以对抽取的数据集进行一些操作。
增量抽取
前两个步骤与全量抽取相同。
3 将度量区所有字段和维度中的“发货日期”设为不可见:
4 抽取方式选择“增量抽取按时间戳”,界面如下:
设置增量字段为订单表中的发货日期:
注:当选择的增量字段为时间类型DATE或DATETIME时,时间格式不可选。
“忽略抽取当天数据”和“覆盖最后抽取的 N天数据”默认不勾选,可根据实际情况勾选。
5.抽取完成后可在高速缓存库下找到视图。若抽取的数据集进行过全量抽取,已经生成了视图,则再进行增量抽取后数据会直接在视图里更新。