页面树结构
转至元数据结尾
转至元数据起始

概述

SMOTE算法通过对少数样本的分析可以合成新的样本,是一种过采样技术。

输入输出

输入

只有一个输入端口,用于接收原始数据集。

输出

只有一个输出端口,用于输出过采样后的全部数据集。

参数说明

设置SMOTE的参数:

设置项说明如下:

参数

说明

备注

选择标签列

用于选择输入数据集的某一列作为标签列。

单选

标签类别

输入目标列中需要进行SMOTE算法的类别值。

文本框,标签的类别值(必填)

生成样本数

生成指定的个数样本。

文本框,生成的样本数量(必填)

示例

1、原先数据源“有”糖尿病的数据少于“没有”糖尿病的数据,新增300条“有”糖尿病的数据。选择SMOTE节点,选择标签列为“糖尿病”,标签类别为“有”,生成样本数为“300”。

2、输出结果是新增一部分少数样本的数据使样本达到均衡,如图:

  • 无标签