数据挖掘2.0-数据源

数据源

Smartbi提供了四种数据源用于数据输入，分别是文本数据源、关系数据源、示例数据源、数据集，支持从这几个数据来源中导入数据。

文本数据源

文本数据源是指将HDFS读取的csv等数据文件导入到Smartbi中。

输入/输出

输入	没有输入端口。
输出	只有一个输出端口，用于输出数据到下一节点资源。

参数配置

设置文本数据源的参数：

设置说明如下：

参数	说明
地址	文本数据在HDFS的路径，其中： <host>表示HDFS所在服务器IP地址； <port>表示HDFS端口号； <path>表示文本数据在HDFS服务中的路径；示例：hdfs://10.10.202.26:9000/data/mllib/UnitTest.csv
数据格式	选择文本的数据格式：csv、json、parquet、apache.orc。
文件编码	选择当前数据文件的编码格式：GBK或UTF-8。
读取行数	选择用于当前工作流的数据量：测试1000条、全部。
文本分隔符	选择当前数据文件中的分隔符：逗号、分号、空格、tab、竖线。
自动推断数据类型	若需要自动判断数据源中字段的数据类型，则选true，否则选false。
自动生成表头	表示上传数据时是否生成表头：若上传数据时没有表头，则选ture，系统自动生成表头；否则选false。

关系数据源

关系数据源是指从Smartbi关系数据源中读取的库表数据。

输入/输出

输入	没有输入端口。
输出	只有一个输出端口，用于输出数据到下一节点资源。

参数配置

设置关系数据源的参数：

设置说明如下：

参数	说明
数据源	选择数据源，这些数据源是Smartbi中连接配置好的关系数据源。
SHEMA	选择SHEMA。
表名	选择表。
SQL语句	通过SQL语句设置where条件，过滤出表中的数据用于工作流。

示例数据源

示例数据源是指从系统中读取内置的示例数据源。

输入输出

输入	没有输入端口。
输出	只有一个输出端口，用于输出数据到下一节点资源。

参数配置

设置示例数据源的参数：

设置说明如下：

参数	说明
数据源选择。	选择平台内置的示例数据源
数据源编码	设置示例数据源的编码：GBK、UTF-8。

数据集

数据集是指从Smartbi中读取数据集中的数据，包含：可视化数据集、SQL数据集、原生SQL数据集、Java数据集、存储过程数据集、多维数据集、自助数据集。

输入输出

输入	没有输入端口。
输出	只有一个输出端口，用于输出数据到下一节点资源。

参数配置

设置数据集的参数：

设置说明如下：

参数	说明
数据集选择	用于单击按钮后，在“数据集选择”窗口中选择Smartbi中已定义的数据集。
数据更新设置	用于设置数据集是否需要重新抽取：“更新抽取数据”表示需要重新抽取；“使用已抽取数据”表示不需要重新抽取。

目标源

Smartbi提供了两种目标源用于数据的输出，分别是关系目标源、导出数据到HDFS，支持将数据导出到目标库中。

关系目标源

关系目标源是指将结果数据保存到Smartbi的关系数据源中。

输入输出

输入	只有一个输入端口，用于将接收到的结果数据存储到指定库中。
输出	没有输出端口。

参数配置

设置关系目标源的参数：

设置说明如下：

参数	说明
数据源	选择数据源，这些数据源是在Smartbi中连接的关系数据源。
SCHEMA	在选择的数据源中选择SHEMA。
表名	选择表。选择数据源和SCHEMA之后，可以点击新建表。
保存模式	两种保存模式：追加数据：表示在原数据的基础上增加新的数据。覆盖数据：表示删除原数据后增加新的数据。

导出数据到HDFS

导出数据到HDFS是指将结果数据保存到HDFS中。

输入输出

输入	只有一个输入端口，用于将接收到的结果数据存储到HDFS中。
输出	没有输出端口。

参数配置

设置导出数据到HDFS的参数：

设置说明如下：

参数	说明
IP和端口	目标HDFS的路径的IP和端口：<ip>:<port>；示例：10.10.202.26:9000。
文件名	存储到HDFS的数据文件名。
HDFS用户名	HDFS用户名。
HDFS web端口	HDFS web端口，默认是50070。

关注我们

服务支持

页面树结构

数据挖掘2.0-数据源

数据源

文本数据源

关系数据源

示例数据源

数据集

目标源

关系目标源

导出数据到HDFS