页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

在数据挖掘的流程中,数据的输入和输出也是必不可少的。

因为需要导入数据才可以进行后续的数据预处理、分析、建模等;以及需要将最后的结果数据,导出保存在指定的目标库。因为需要导入数据才可以进行后续的数据预处理、分析、建模等;以及将最后的结果数据,导出保存在指定的目标库。

所以Smartbi分别提供数据源和目标源节点,满足数据的输入和输出。

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录

数据源

Smartbi提供了四种数据源用于数据输入,分别是文本数据源、关系数据源、示例数据源、数据集,支持从这几个数据来源中导入数据。

文本数据源

文本数据源是指从HDFS中读取的csv、txt数据文件导入到Smartbi中。

Image Added

输入/输出

 

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置文本数据源的参数:

Image Added

文本数据源的参数设置说明如下:设置说明如下:

参数说明
地址文本数据在HDFS的路径,其中:
数据格式选择文本的数据格式,目前只支持CSV格式。
文件编码选择当前数据文件的编码格式:GBK或UTF-8。
读取行数选择用于当前工作流的数据量:测试1000条、全部。

文本分隔符

选择当前数据文件中的分隔符:逗号、分号、空格、Tab、竖线。
自动推断数据类型若需要自动判断数据源中字段的数据类型,则选true,否则选false。
自动生成表头表示上传数据时是否生成表头:若上传数据时没有表头,则选ture,系统自动生成表头;否则选false。

关系数据源

关系数据源是指从Smartbi数据源中读取的库表数据。

Image Added

输入/输出

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置关系数据源的参数:

Image Added

关系数据源的参数设置说明如下:设置说明如下:

参数
说明
数据源选择数据源,这些数据源是Smartbi中连接配置好的关系数据源。
SHEMA选择SHEMA。
表名选择表。
SQL语句通过SQL语句设置where条件,过滤出表中的数据用于工作流。

示例数据源

示例数据源是指从系统中读取内置的示例数据源。

Image Added

输入输出

输入没有输入端口。
输出只有输出端口,用于输出数据到下一节点资源。

参数配置

设置示例数据源的参数:

示例数据源的参数设置说明如下:Image Added

设置说明如下:

参数说明
数据源选择。选择平台内置的示例数据源
数据源编码设置示例数据源的编码:GBK、UTF-8。

数据集

 

数据集是指从Smartbi中读取数据集中的数据,包含:可视化数据集、SQL数据集、原生SQL数据集、Java数据集、存储过程数据集、多维数据集、自助数据集。

Image Added

输入输出

输入没有输入端口。
输出只有输出端口,用于输出数据到下一节点资源。

参数配置

设置数据集的参数:

数据集参数的设置项说明如下:Image Added

设置说明如下:

参数
说明
数据集选择用于单击按钮后,在“数据集选择”窗口中选择Smartbi中已定义的数据集。
数据更新设置用于设置数据集是否需要重新抽取:“更新抽取数据”表示需要重新抽取;“使用已抽取数据”表示不需要重新抽取。

目标源

Smartbi提供了两种目标源用于数据的输出,分别是关系目标源、导出数据到HDFS,支持将数据导出到目标库中。

关系目标源

导出数据到HDFS