您可以使用平衡节点修正数据集中的不平衡,以便它们符合指定的检验标准。例如,假设某个数据集只有两个值(T和F),并且 90% 的观测值为F,而只有 10% 的观测值为T,这类现象成为样本失衡。很多建模技术处理此类失衡数据都有困难,因为它们倾向于只学习这些F的结果,而忽略T的结果(因为这些结果少的可怜)。如果数据平衡很好,T和F结果具有大致相同的数量,那么模型将更有可能找出分辨这两个组的模型。这种情况下,平衡节点对于创建平衡指令,从而减少带有F结果的观测值数量非常有用。
对话框选项
选择字段
选择样本失衡的字段。一般处理的都是目标字段。且一定是分类型字段。
值域
名义值列显示的是选择的分类字段的取值。倍数是样本平衡处理的指数,这个需要用户指定。如果倍数的设置值小于1则为欠抽样,即随机去掉一定比例的正样本,使其减少。如果倍数的设置值大于1则为过抽样,即多次有放回的抽取负类样本,以复制负类样本,使其增加。如果值都是1,则执行后不发生任何改变。
随机数种子
如果希望每次执行的结果不变,只需要在这里输入固定的随机种子即可。如果不指定,每次执行会使用一个新的随机种子,多次执行的结果可能有所不同。
端口
输入端口
0 |
输入表 |
输出端口
0 |
平衡表 |