页面树结构
转至元数据结尾
转至元数据起始

正在查看旧版本。 查看 当前版本.

与当前比较 查看页面历史

« 前一个 版本 6 下一个 »

采样就是按照某种规则从数据集中挑选样本数据。

在Smartbi中支持三种类型的采样:随机采样、加权采样、分层采样。

说明

类型

说明

随机采样

按照随机的原则,从总体数据中随机地抽取部分数据。

加权采样

以加权方式生成采样数据,权重值越大,数据被抽取的概率越大。权重值:选择用于加权的列的值大小。(权重列必须为数字类型的字段)

分层采样

按照分层列先将数据分成若干个类别,再按一定比例或个数随机抽取数据。分层列:选择用于分层的列。

输入输出

输入

只有一个输入端口,用于接收数据集。(总体)

输出

只有一个输出端口,用于输出采样结果。(样本)


参数配置

类型

参数

说明

随机采样

抽样比例

表示样本占总体的比例,范围是【0,1】的数,默认值为0.5。

抽样种子

作为随机序列的第一个数字,默认值为10。设定抽样种子,可以使随机结果固定,即运行结果在多次运行中保持不变。

加权采样

权重列

选择用于加权的列。

采样方式值

按个数:表示按照需要采样样本的数量值进行抽取,值的范围为大于等于1的整数。

按比例:表示按照采样样本占总体的比例进行抽取,值的范围为0-1之间的数值。

随机种子

作为随机序列的第一个数字。设定抽样种子,可以使随机结果固定,即运行结果在多次运行中保持不变。
范围是任意整数。

分层采用

分层列

选择用于分层的列(能使数据有较大差异的列)。

采样方式值

按个数:表示按照需要采样样本的数量值进行抽取,值的范围为大于等于1的整数;

按比例:表示按照采样样本占总体的比例进行抽取,值的范围为0-1之间的数值;

随机种子

作为随机序列的第一个数字。设定抽样种子,可以使随机结果固定,即运行结果在多次运行中保持不变。 


随机采样

 

说明

按照随机的原则,从总体数据中随机地抽取部分数据。

 输入输出

输入

只有一个输入端口,用于接收数据集。(总体)

输出

只有一个输出端口,用于输出采样结果。(样本)

参数配置

参数

说明

抽样比例

表示样本占总体的比例,范围是【0,1】的数,默认值为0.5。

抽样种子

作为随机序列的第一个数字,默认值为10。

设定抽样种子,可以使随机结果固定,即运行结果在多次运行中保持不变。

示例


加权采样

 

说明

以加权方式生成采样数据,权重值越大,数据被抽取的概率越大。权重值:选择用于加权的列的值大小。(权重列必须为数字类型的字段)

 输入输出

输入

只有一个输入端口,用于接收数据集。(总体)

输出

只有一个输出端口,用于输出采样结果。(样本)

参数配置

参数

说明

权重列

选择用于加权的列。

采样方式值

  • 按个数:表示按照需要采样样本的数量值进行抽取,值的范围为大于等于1的整数。
  • 按比例:表示按照采样样本占总体的比例进行抽取,值的范围为0-1之间的数值。

示例

 

分层采样

 

说明

按照分层列先将数据分成若干个类别,再按一定比例或个数随机抽取数据。分层列:选择用于分层的列。

 输入输出

输入

只有一个输入端口,用于接收数据集。(总体)

输出

只有一个输出端口,用于输出采样结果。(样本)

参数配置

参数

说明

分层列

选择用于分层的列(能使数据有较大差异的列)。

采样方式值

  • 按个数:表示按照需要采样样本的数量值进行抽取,值的范围为大于等于1的整数;
  • 按比例:表示按照采样样本占总体的比例进行抽取,值的范围为0-1之间的数值;

随机种子

作为随机序列的第一个数字。设定抽样种子,可以使随机结果固定,即运行结果在多次运行中保持不变。

示例

 

  • 无标签