这个节点基于选中字段的唯一值对表中的行进行分组计算。生成汇总表的行是由组合选项卡中每个选中字段的唯一值确定的,每一行是由组合选项卡中每个选中字段的唯一值确定的分组。每个分组的汇总值基于聚合选项卡中指定的字段及定义的方法进行聚合得到。
对话框选项
分组选项卡
可以选择一个或者多个字段作为分组字段。根据每个选中字段的唯一值确定分组,一个分组作为生成汇总表的一条记录。只支持整型或者字符型字段。
聚合选项卡
可以选择一个或多个字段基于分组进行聚合计算。选中的每个字段都可以单独指定聚合方法。聚合选项卡右侧编辑表中的缺失选项用于对字段中的缺失值进行处理,如果勾选此项,则表示将字段中的缺失值会被处理,默认勾选,不过有些聚合方法并不支持,如平均。批处理选项显示了所有聚合运算的编辑方法,通过右击该列区域选择相应的批处理方法。当字段较多时,这个功能将会带来很多的方便。聚合方法介绍如下:
一般方法:
列表:创建一个包含每组所有单元的列表单元(包括缺失值)。
单连接:每组只连接每个元素一次。
唯一计数:每组每个元素只计数一次。
最后:取每组最后一个条目。
最大值:计算每组的最大值。
最小值:计算每组的最小值。
模式:取每组出现次数最多的值。如果有多个值符合条件,则第一个出现的值将会被写入输出表。
百分数:组成数的百分比。
第一:取每组第一个条目。
缺失值计数:计算每组缺失值的个数。
计数:每组成员个数。
连接:连接每组的值。
集合:创建一个包含集合单元,其中每组只包含每个元素一次(包括缺失值)。
数值方法:
中位数:计算一个数列表的中位数。缺失单元将被跳过。
几何平均数:计算每组的几何平均值。如果所有值 0,该方法返回NaN。如果有值为0,则结果也是0。
几何标准差:计算每组几何标准差。如果所有值 = 0,则该方法返回NaN。
平均值:计算每组的平均值。
方差:计算每组的方差。
标准偏差:计算每组的标准偏差。
求和:计算每组的和。对整型与长整型单元,运算符可能会返回一个缺失单元并标记跳过列,如果和溢出限制,整型(231-1),长整型(262-1)。
名义字段最大类别数
定义名义字段唯一值最大数量,以避免不合理操作或者内存不足导致内存崩溃的问题。当所选名义型字段的唯一值数超出限制在执行中将被忽略,如果分组选项卡中选择的字段都被忽略将会报错,执行失败。
值分隔符
部分聚合方法生成的聚合字段的值由多个元素组成,因此需要指定分隔符。这样的聚合方法包括集合、列表、单连接和值域。
字段命名
指定新生成的聚合字段的命名规则,一共包括以下三种命名规则:
原字段名:使用原有的字段名。注意,您只可以对同一聚合字段使用一次该方法(同一个字段可以聚合多次),防止命名重复。
聚合方法_列名:前缀为聚合方法,后面为原字段名,以下划线连接。
列名_聚合方法:前面为原字段名,后缀为聚合方法,以下划线连接。
如果聚合设置中没有勾选缺失选项,则所有聚合方法都附加一个*号,区分有缺失值的字段和无缺失的字段,有*号表示有缺失值。
端口
输入端口
0 |
输入表 |
输出端口
0 |
汇总表 |