数据源
Smartbi提供了四种数据源用于数据输入,分别是文本数据源、关系数据源、示例数据源、数据集,支持从这几个数据来源中导入数据。
文本数据源
文本数据源是指从HDFS中读取的csv、txt数据文件导入到Smartbi中。
输入/输出
输入 | 没有输入端口。 |
---|---|
输出 | 只有一个输出端口,用于输出数据到下一节点资源。 |
参数配置
设置文本数据源的参数:
设置说明如下:
参数 | 说明 |
---|---|
地址 | 文本数据在HDFS的路径,其中:
|
数据格式 | 选择文本的数据格式,目前只支持CSV格式。 |
文件编码 | 选择当前数据文件的编码格式:GBK或UTF-8。 |
读取行数 | 选择用于当前工作流的数据量:测试1000条、全部。 |
文本分隔符 | 选择当前数据文件中的分隔符:逗号、分号、空格、Tab、竖线。 |
自动推断数据类型 | 若需要自动判断数据源中字段的数据类型,则选true,否则选false。 |
自动生成表头 | 表示上传数据时是否生成表头:若上传数据时没有表头,则选ture,系统自动生成表头;否则选false。 |
关系数据源
关系数据源是指从Smartbi关系数据源中读取的库表数据。
输入/输出
输入 | 没有输入端口。 |
---|---|
输出 | 只有一个输出端口,用于输出数据到下一节点资源。 |
参数配置
设置关系数据源的参数:
设置说明如下:
参数 | 说明 |
---|---|
数据源 | 选择数据源,这些数据源是Smartbi中连接配置好的关系数据源。 |
SHEMA | 选择SHEMA。 |
表名 | 选择表。 |
SQL语句 | 通过SQL语句设置where条件,过滤出表中的数据用于工作流。 |
示例数据源
示例数据源是指从系统中读取内置的示例数据源。
输入输出
输入 | 没有输入端口。 |
---|---|
输出 | 只有输出端口,用于输出数据到下一节点资源。 |
参数配置
设置示例数据源的参数:
设置说明如下:
参数 | 说明 |
---|---|
数据源选择。 | 选择平台内置的示例数据源 |
数据源编码 | 设置示例数据源的编码:GBK、UTF-8。 |
数据集
数据集是指从Smartbi中读取数据集中的数据,包含:可视化数据集、SQL数据集、原生SQL数据集、Java数据集、存储过程数据集、多维数据集、自助数据集。
输入输出
输入 | 没有输入端口。 |
---|---|
输出 | 只有输出端口,用于输出数据到下一节点资源。 |
参数配置
设置数据集的参数:
设置说明如下:
参数 | 说明 |
---|---|
数据集选择 | 用于单击按钮后,在“数据集选择”窗口中选择Smartbi中已定义的数据集。 |
数据更新设置 | 用于设置数据集是否需要重新抽取:“更新抽取数据”表示需要重新抽取;“使用已抽取数据”表示不需要重新抽取。 |
目标源
Smartbi提供了两种目标源用于数据的输出,分别是关系目标源、导出数据到HDFS,支持将数据导出到目标库中。
关系目标源
关系目标源是指将结果数据保存到Smartbi的关系数据源中。
输入输出
输入 | 只有一个输入端口,用于将接收到的结果数据存储到指定库中。 |
---|---|
输出 | 没有输出端口。 |
参数配置
设置关系目标源的参数:
设置说明如下:
参数 | 说明 |
数据源 | 选择数据源,这些数据源是在Smartbi中连接的关系数据源。 |
SCHEMA | 选择SHEMA。 |
表名 | 选择表。 |
保存模式 | 两种保存模式:
|
导出数据到HDFS
导出数据到HDFS是指将结果数据保存到HDFS中。
输入输出
输入 | 只有一个输入端口,用于将接收到的结果数据存储到HDFS中。 |
---|---|
输出 | 没有输出端口。 |
参数配置
设置导出数据到HDFS的参数:
设置说明如下:
参数 | 说明 |
IP和端口 | 目标HDFS的路径的IP和端口,如:hdfs://IP:端口/路径; 示例:hdfs://10.10.202.26:9000/data/mllib |
文件名 | 存储到HDFS的数据文件名。 |
HDFS用户名 | HDFS用户名。 |
HDFS web端口 | HDFS web端口,默认是50070。 |