数据挖掘2.0-随机森林特征选择

输入/输出

输入	一个输入端口，用于接收前置节点传下来的数据集。
输出	一个输出端口，用于输出增加了离散后的字段的数据集。

参数名称	说明	备注
选择特征列	选择需要的特征列，必须是数值列	必填（特征列中不能含有null）
选择标签列	选择做为标签列的字段	必填
需选择的特征数量	从待选择的特征列中输出特征列的数量	默认值为1,范围是[1,已选择特征的数量]的整数
选择方法	分类
选择方法	回归
分裂特征的数量	取值范围：大于或等于2的整数；默认值：32。	对连续类型特征进行离散时的分箱数；注意：该值越大，模型会计算更多连续型特征分裂点且会找到更好的分裂点，但同时也会增加模型的计算量。
树的深度	取值范围：[1,30]的整数；默认值为4。	当模型达到该深度时停止分裂；注意：树的深度越大，模型训练的准确度更高，但同时也会增加模型的计算量且会导致过拟合。
树的个数	取值范围：大于或等于1的整数。默认值为20。	随机森林中决策树的棵数。
衡量准则	gini	裂分标准，entropy表示熵值，gini表示基尼指数；
衡量准则	entropy	裂分标准，entropy表示熵值，gini表示基尼指数；

使用“鸢尾花数据”，预测鸢尾花类别。选取4个特征列和1个标签列，需选择的特征数量为3，选择方法分类，衡量准则为gnin，其他参数默认。结果输出“featureSelector”列，表示为从4个特征列的值进行特征选择相关性较高的3个特征。如下图：

点击鼠标右键查看分析结果：

从4个特征列中选取3个相关性最高的特征进行展示。如下图：

关注我们

服务支持