数据挖掘问题中可能包括成百或者上千的字段可以作为输入字段,从这些字段中挑选出模型应该包含的字段需要耗费很大的精力。为了缩小选择范围,可以使用特征选择节点进行初步筛选。该节点分两步对输入字段进行筛选,首先根据数据的特征质量过滤掉数据质量很差的字段,减少了后面的计算量,然后通过计算剩余的输入字段对目标的重要性对剩余字段进行排序或者过滤。
对话框选项
配置
相关性选择
选择根据重要性筛选字段的规则,并指定相应的阀值。
特征质量选择
按缺失值、类别、分类数、变异系数、标准差设置的条件进行筛选。指定各个统计量的阀值。
端口
输入端口
0 |
输入需要进行筛选的字段及数据。 |
输出端口
0 |
输出进行筛选后的表,只保留未被筛选的表。 |
视图
特征评估图
输出各个字段和目标的相关性表及被过滤掉的字段及过滤原因。