页面树结构
转至元数据结尾
转至元数据起始

重新结构化节点与设为标志节点类似,可用于根据名义字段或标志字段的值生成多个字段,但更加灵活。新生成的字段可包含来自另一个字段或布尔型(0和1)的值。使用这种节点,可以使用另一个字段的值创建任意类型的字段(包括标志字段)。而设为标志节点只针对名义字段或标志字段的值生成多个标志字段,因此如果要创建标志字段,使用设为标志节点更为方便。
该节点一共分组集合聚合三个选项卡。分组选项卡中指定用于分组的字段,只支持整型或者字符型字段,类似汇总节点的分组选项卡。集合选项卡中用于指定用于创建新字段的标识,将以集合字段的值生成新的字段,而新字段取值基于聚合选项卡中指定的字段及聚合方法计算得到。集合选项卡中原则上也应该只支持整型或字符型字段。而且如果集合字段中的取值越多则生成的字段越多,计算成本越高。
对话框选项
分组设置
分组字段
可以选择一个或者多个字段作为分组字段。根据每个选中字段的唯一值确定分组,一个分组作为生成汇总表的一条记录。只支持整型或者字符型字段。
集合设置
集合字段
选择一个或多个集合字段,用于创建新字段的标识,将以集合字段的值生成新的字段,而新字段取值基于聚合选项卡中指定的字段及聚合方法计算得到。
忽略缺失值
如果勾选此项,则忽略集合字段中的缺失值。默认勾选。
追加总和
如果勾选此项,则会在输出表中追加一个统计每行总和的字段。
重新计算值域
如果勾选此项,将会忽略集合字段元数据中的值域重新计算集合字段的值域。
聚合设置
聚合方法
同汇总节点,可以选择一个或多个字段基于分组进行聚合计算。选中的每个字段都可以单独指定聚合方法。聚合选项卡右侧编辑表中的缺失选项用于对字段中的缺失值进行处理,如果勾选此项,则表示将字段中的缺失值会被处理,默认勾选,不过有些聚合方法并不支持,如平均。批处理选项显示了所有聚合运算的编辑方法,通过右击该列区域选择相应的批处理方法。当字段较多时,这个功能将会带来很多的方便。聚合方法介绍如下:
一般方法:
列表:创建一个包含每组所有单元的列表单元(包括缺失值)。
单连接:每组只连接每个元素一次。
唯一计数:每组每个元素只计数一次。
最后:取每组最后一个条目。
最大值:计算每组的最大值。
最小值:计算每组的最小值。
模式:取每组出现次数最多的值。如果有多个值符合条件,则第一个出现的值将会被写入输出表。
百分数:组成数的百分比。
第一:取每组第一个条目。
缺失值计数:计算每组缺失值的个数。
计数:每组成员个数。
连接:连接每组的值。
集合:创建一个包含集合单元,其中每组只包含每个元素一次(包括缺失值)。
数值方法:
中位数:计算一个数列表的中位数。缺失单元将被跳过。
几何平均数:计算每组的几何平均值。如果所有值 0,该方法返回NaN。如果有值为0,则结果也是0。
几何标准差:计算每组几何标准差。如果所有值 = 0,则该方法返回NaN。
平均值:计算每组的平均值。
方差:计算每组的方差。
标准偏差:计算每组的标准偏差。
求和:计算每组的和。对整型与长整型单元,运算符可能会返回一个缺失单元并标记跳过列,如果和溢出限制,整型(231-1),长整型(262-1)。
名义字段最大类别数
定义名义字段唯一值最大数量,以避免不合理操作或者内存不足导致内存崩溃的问题。当所选名义型字段的唯一值数超出限制在执行中将被忽略,如果分组选项卡中选择的字段都被忽略将会报错,执行失败。
值分隔符
部分聚合方法生成的聚合字段的值由多个元素组成,因此需要指定分隔符。这样的聚合方法包括集合、列表、单连接和值域。
字段命名
指定新生成的聚合字段的命名规则,一共包括以下三种命名规则:
原字段名:使用原有的字段名。注意,您只可以对同一聚合字段使用一次该方法(同一个字段可以聚合多次),防止命名重复。
聚合方法_列名:前缀为聚合方法,后面为原字段名,以下划线连接。
列名_聚合方法:前面为原字段名,后缀为聚合方法,以下划线连接。
如果聚合设置中没有勾选缺失选项,则所有聚合方法都附加一个*号,区分有缺失值的字段和无缺失的字段,有*号表示有缺失值。
端口
输入端口

0

输入表

输出端口

0

重新结构化表

  • 无标签