ETL通常是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型。
自助ETL模块以工作流的形式实现为库表提取数据模型的语义,通过易于操作的可视化工具,将数据加工成具备语义一致性与完整性的数据模型;也可以增强自助数据集构建数据模型的能力。
我们通过封装ETL算法,将技术分离,可以实现业务人员进行自助ETL操作。
ETL工作流必须以数据源为起点以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽内置的预处理方法,之后将处理过的数据存储到目标源中。
系统支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。
这些预处理方法的使用详情请参见 数据预处理 章节。
ETL工作流定制界面的操作入口有如下两个:
入口1:通过系统主界面快捷菜单进入。
1、在系统主界面的快捷菜单中选择 数据准备 > 自助ETL,进入“自助ETL”管理界面:
2、在“自助ETL”管理界面,单击 新建ETL 按钮,进入“新建ETL”定制界面。
入口2:通过“数据准备”界面快捷菜单进入。
1、在系统导航栏中选择 数据准备,进入“数据准备”界面并单击快捷菜单 自助ETL,进入“自助ETL”管理界面:
2、在“自助ETL”管理界面,单击 新建ETL 按钮,进入“新建ETL”定制界面。
自助ETL管理界面以列表的形式显示所有ETL流程,支持用户对ETL流程进行编辑和删除的操作。如下图所示:
该界面主要分为如下几个区:
功能区:显示对数据处理流程列表的相关操作,从左至右依次是:
功能操作 | 说明 |
---|---|
搜索 | 用于通过ETl流程名称关键字模糊匹配,搜索出结果列表。 |
新建ETL | 用于创建新的ETL流程。 |
刷新 | 用于更新ETL流程列表。 |
列表区:显示所有ETL流程及目录列表的基本信息,以及ETL流程调度的状态。该列表的"操作栏"支持对ETL流程或文件夹进行如下操作:
操作按钮 | 按钮名称 | 说明 |
---|---|---|
属性 | 打开当前文件夹或ETL流程的属性窗口。 | |
移动到 | 用于将当前目录或ETL流程移动到其它位置。 | |
删除 | 用于删除当前目录或ETL流程。 | |
资源授权 | 用于对当前目录或ETL流程进行资源授权。 |
ETL流程定制界面用于设计定制ETL工作流。如下图所示:
该界面主要分为如下几个区:
画布下方的工具栏中有如下工具按钮支持工作流的相关操作。
这些工具按钮从左至右的说明如下:
按钮 | 说明 |
---|---|
保存 | 用于保存当前ETL流程。 |
另存 | 用于将当前ETL流程保存到其它路径下。 |
运行 | 用于运行当前ETL流程。 |
定时任务 | 用于修改当前ETL流程的调度设置。 |
各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:
该右键菜单各项的说明如下:
右键菜单 | 说明 |
---|---|
删除 | 表示删除当前节点资源 |
执行到此处 | 表示运行工作流到当前节点资源结束 |
查看日志 | 用于查看当前节点资源的运行日志 |
查看输出 | 用于查看当前节点资源的输出列表 |
画布内含缩放工具,用于对工作进行放大、缩小操作:
该工具箱中从上到下依次是:放大、缩小、原始大小。
作业是对数据处理流程结合调控机制的统称,对作业的监控包含了对数据处理流程执行情况及其调度内容的监控。
操作入口:在"定制管理"界面单击 作业监控 快捷菜单,进入"作业监控"界面,如下图所示:
进入"作业监控"界面,显示对ETL作业执行的监控情况,如下图所示:
该界面分为如下几个区:
功能区:显示对ETL作业监控列表的相关操作,从左至右依次是:
功能操作 | 说明 |
刷新 | 用于手工更新ETL作业监控列表。 |
自动刷新 | 系统自动刷新ETL作业监控列表,默认勾选,且间隔10秒刷新。 |
搜索 | 用于通过ETL作业名称关键字模糊匹配,搜索出结果列表。 |
列表区:显示所有ETL流程及文件夹的列表。该列表的"操作栏"支持对ETL作业的操作,从左至右依次是:
功能操作 | 说明 |
立即执行 | 用于手工执行ETL作业。 |
编辑 | 用于进入到ETL流程定制界面修改当前ETL。 |
定时任务 | 系统默认为ETL作业生成相应的调度任务,支持通过该功能操作修改相关调度设置: |
作业调用记录 | 用于显示当前ETL作业的调用记录信息。 |