页面树结构
转至元数据结尾
转至元数据起始

ETL工作流示例

ETL工作流必须以数据源为起点,以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽内置的预处理方法,之后将处理过的数据存储到目标源中。

数据源中支持的关系数据源有:Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL、Presto+hive、星环、PG、Gauss100、Greenplum。关于数据源的更多信息请参见 数据源 章节。

系统支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。

目标源中支持的关系目标源有:Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL、Gauss100。关于目标源的更多信息请参见 目标源 章节。


功能入口

ETL工作流定制界面的操作入口有如下两个:

入口1:通过系统主界面快捷菜单进入。

1、在系统主界面的快捷菜单中选择 数据准备 > 自助ETL,进入“自助ETL”管理界面:

2、在“自助ETL”管理界面,单击 新建自助ETL 按钮,进入“新建自助ETL”定制界面。

入口2:通过“数据准备”界面快捷菜单进入。

1、在系统导航栏中选择 数据准备,进入“数据准备”界面并单击快捷菜单 自助ETL,进入“自助ETL”管理界面:

2、在“自助ETL”管理界面,单击 新建自助ETL 按钮,进入“新建自助ETL”定制界面。

界面介绍

自助ETL管理界面

自助ETL管理界面以列表的形式显示所有ETL流程,支持用户对ETL流程进行编辑和删除的操作。如下图所示:


该界面主要分为如下几个区:

  • 功能区:显示对数据处理流程列表的相关操作,从左至右依次是:

    功能操作

    说明

    搜索

    用于通过ETL流程名称关键字模糊匹配,搜索出结果列表。
    注:英文需要区分大小写。

    新建ETL

    用于创建新的ETL流程。

    刷新

    用于更新ETL流程列表。

  • 列表区:显示所有ETL流程及目录列表的基本信息,以及ETL流程调度的状态。该列表的“操作栏”支持对ETL流程或文件夹进行如下操作:

    操作按钮

    按钮名称

    说明

    属性

    打开当前文件夹或ETL流程的属性窗口。

    移动到

    用于将当前目录或ETL流程移动到其它位置。

    删除

    用于删除当前目录或ETL流程。

    资源授权用于对当前目录或ETL流程进行资源授权。

ETL工作流定制界面

ETL流程定制界面用于设计定制ETL工作流。如下图所示:

该界面主要分为如下几个区:

  • 节点资源区:显示当前流程可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考自助ETL-节点资源区介绍
  • 画布区:用于定制ETL工作流。
  • 节点配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
  • 工具栏:用于对当前流程进行的操作,详情请参见 工具栏
  • 导入/导出流程键:用于导入已定制的ETL工作流或者将当前的ETL工作流导出到本地。

工作流操作

工具栏

画布下方的工具栏中有如下工具按钮支持工作流的相关操作。

这些工具按钮从左至右的说明如下:

按钮

说明

保存

用于保存当前ETL流程。

另存

用于将当前ETL流程保存到其它路径下。

运行

用于运行当前ETL流程。

定时任务用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。

右键菜单

各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:

该右键菜单各项的说明如下:

右键菜单

说明

删除

表示删除当前节点资源。

执行到此处

表示运行工作流到当前节点资源结束。

查看日志

用于查看当前节点资源的运行日志。

查看输出

用于查看当前节点资源的输出列表。

画布工具

画布内含缩放工具,用于对工作进行放大、缩小操作:


该工具箱中从上到下依次是:放大、缩小、原始大小、撤销、还原。 

  • 无标签