OneHot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。它是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,它被标记为1。(即:标记位置为1,其他位置为0)我们编码后的结果是一个稀疏向量,稀疏向量就是有特征数量,特征索引和特征值组成。
输入
没有输入端口。
输出
一个输出端口,用于接入下一个节点,与抽取节点组合使用。
参数名称
说明
备注
新增列后缀
用于设置在原字段名后追加后缀生成新的列,默认后缀为:OneHot;
该节点与抽取、变换节点组合使用;
选择对非法数据进行处理的策略,非法数据指空值或未进模型的类别值。
使用“银行零售客户流失数据”,选取性别列转换为OneHot编码,输出结果为数组组形式展示,(2,[1],[1.0])表示为总共有2个类别,索引为1的位置标记为1,其他位置都是0。