页面树结构
转至元数据结尾
转至元数据起始

自动分箱节点的功能是对数值型字段按一定间距进行分组,称为分箱。有3种分箱方法和3种分箱命名方法可供选择。如果需要自定义分箱,请使用"自定义分箱"节点。
对话框选项
包含
这个列表中显示的是需要进行分箱的字段。
排除
这个列表显示的是不进行分箱的字段。
选择
使用这个选项下的"添加"、"全部添加"、"移除"、"全部移除"按钮可以在包含列表与排除列表之间移动字段。也可以通过双击列表中的字段名来移动字段。
搜索
当字段较多时这个功能特别有用,可以通过输入要查找字段名称中包含的字符进行模糊查找。重复点击搜索按钮可以逐一标记下一个包含搜索字符的字段。也可以勾选复选框"选中所有匹配字段"选中所有符合条件的字段。
始终包含所有字段
勾选这个选项可以将把所有字段添加到包含列表中。
分箱的方法有以下三种:
固定箱数
通过调整箱数大小,确定自动分箱的数量。
固定宽度
确定分箱的宽度。程序将根据指定的宽度进行分箱并确定分箱的箱数。
分位数
也可以使用分位数进行分箱,可以选择的有"四分位数"、"十分位数"、"二十分位数",还可以自定义分位数。
命名
选择编号,则以"Bin"为前缀进行依次编号命名,如 Bin 1,Bin 2等。 选择边界,则以分箱区间为分箱名,如"(a,b]"。 选择中点,则以分箱区间的中点为分箱名。
强制为整数
即强制设定区间的边界为整数。需要对小数的边界进行近似替换,第一个区间的下边界为小于最小值的最大整数, 最后一个区间的上边界为大于最大值的最小整数。分割区间的边界采用向上近似的方式取整。剔除重复的边界。 
例子: 
[0.1,0.9], (0.9,1.8] -> [0,1], (1,2] 
[3.9,4.1], (4.1,4.9],(4.9,5.1] -> [3,5],(5,6]
替换目标字段:
如果勾选此项,包含列表中的字段将被分箱后的字段替换,否则,会将分箱结果以新字段追加到输出表中。
高级格式
选择此项,浮点型的格式将按照这个标签下的选项进行设置。
输出格式
指定输出格式。对于数值0.00000035239,选择标准字符,则显示为3.52E-7; 选择简单字符,则显示为0.000000352;选择工程字符, 则显示为352E-9。
精度
浮点型数据需要保留的位数,如果位数减少,将应用指定的舍入方式。
精度模式
近似值的精度类型。小数点位数是默认选项,默认按指定小数点位数近似计算。而有效数字选项可以按有效数字进行近似计算,对于一个近似数,从左边第一个不是0的数字起,到精确到的位数止,所有的数字都叫做这个数的有效数字。
舍入模式
定义近似计算浮点型数据时使用的舍入模式。有7种不同的模式可供选择: 
向上舍入:如果该值为正,则往远离0的方向近似的舍入模式。如果该值为为负,则向上舍入。如果是2.5取整后等于3,如是-2.5取整后等于-2。
负向舍入:向负方向舍入。如果是2.5取整后等于2,如是-2.5取整后等于-3。
远离0取整:向远离0的方向取整。如果是2.5取整后等于3,如是-2.5取整后等于-3。
向0取整:往小于该值的方向近似的舍入模式。如果是2.5取整后等于2,如是-2.5取整后等于-2。
四舍五入:四舍五入的舍入模式。如果是2.5取整后等于3,如是2.4取整后等于2。
五舍六入:五舍六入的舍入模式(类似四舍五入,差别在于对于5选择向下近似)。如果是2.5取整后等于2,如是2.6取整后等于3。
四舍六入:四舍六入,如果等于五,则选择近似值为偶数的舍入模式。如果是2.4取整后等于2,如是2.6取整后等于3,2.5取整后等于2,3.55取整后等于4。
端口
输入端口

0

输入表

输出端口

0

分箱后的表

  • 无标签