该节点用于从输入数据中抽取一个样本。在配置对话框中可以指定抽样方法。
对话框选项
设置样本量的方法有以下指定样本量和抽样比例两种:
样本量
指定抽取样本的样本量。如果现有的行数比指定的数小,则使用所有行。
比例[%]
指定样本量占总记录数的百分比。该值必须处在0到100之间。
有以下几种方法可供选择:
前n个
抽取前n条记录作为样本。
等距抽样
此方法总是包含第一和最后的行,对于剩余的记录,每隔一定间隔抽取一条记录,例如每隔三行。
简单随机
对所有行进行随机抽样。可以设置一个静态的随机种子,这样可以保证在配置不变的情况下再次运行该节点的时候抽样结果不变。
分层抽样
如果要进行分层抽样,选择此项。在抽样时,将总体分成互不交叉的层,然后按照一定的比例, 从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。主要用于总体中的个体有明显差异的情况。可以设置一个静态的随机种子,这样可以保证在配置不变的情况下再次运行该节点的时候抽样结果不变。
等量抽样
从每个类里面抽取等量的个体,然后合在一起作为最终的样本。
使用静态种子
如果选择随机或分层抽样,可以在这里输入固定的种子,这样可以保证在配置不变的情况下再次运行该节点的时候抽样结果不变。如果不指定一个随机种子,每次执行会生成一个新的随机种子,可能会导致多次运行的结果不一致。
端口
输入端口
0 |
输入表 |
输出端口
0 |
样本 |