输入/输出
输入 | 一个输入端口,用于接收前置节点传下来的数据集。 |
---|---|
输出 | 一个输出端口,用于输出增加了离散后的字段的数据集。 |
参数配置
参数名称 | 说明 | 备注 |
---|---|---|
选择特征列 | 选择需要的特征列,必须是数值列 | 必填(特征列中不能含有null) |
选择标签列 | 选择做为标签列的字段 | 必填 |
需选择的特征数量 | 从待选择的特征列中输出特征列的数量 | 默认值为1,范围是[1,已选择特征的数量]的整数 |
选择方法 | 分类 |
|
回归 |
| |
分裂特征的数量 | 取值范围:大于或等于2的整数; 默认值:32。 | 对连续类型特征进行离散时的分箱数; 注意:该值越大,模型会计算更多连续型特征分裂点且会找到更好的分裂点,但同时也会增加模型的计算量。 |
树的深度 | 取值范围:[1,30]的整数;默认值为4。 | 当模型达到该深度时停止分裂; 注意:树的深度越大,模型训练的准确度更高,但同时也会增加模型的计算量且会导致过拟合。 |
树的个数 | 取值范围:大于或等于1的整数。默认值为20。 | 随机森林中决策树的棵数。 |
衡量准则 | gini | 裂分标准,entropy表示熵值,gini表示基尼指数; |
entropy |
效果
使用“鸢尾花数据”,预测鸢尾花类别。选取4个特征列和1个标签列,需选择的特征数量为3,选择方法分类,衡量准则为gnin,其他参数默认。结果输出“featureSelector”列,表示为从4个特征列的值进行特征选择相关性较高的3个特征。如下图:
点击鼠标右键查看分析结果:
从4个特征列中选取3个相关性最高的特征进行展示。如下图: