异常节点用于识别数据中的离群点或异常观测点。该节点通过聚类分析的手段进行异常判断,也就是将输入数据中的记录分成2个(或多个)类,然后计算每个类中点到类中心的距离,离类中心越远的点就越异常,这个是异常节点进行异常判断的基本思想。为了描述每条记录的异常程度,定义了一个变量,即"异常指数",这个变量的值定义为点到类中心的距离除以该类中所有点到类中心距离的平均值。这个节点通过计算得到每条记录的异常指数,然后通过异常指数的大小来判断该条记录是否异常。
对话框选项
异常判断模式
这个选项定义进行异常判断的模式,不管是何种模式,都不会影响每个点报告的异常指数的值。如果之后想增加或减少判断为异常记录的数量,则可以使用"选择"节点来根据异常指数的值来确定异常记录。在这里,异常判断的模式有两种:
异常记录百分比
这个选项设置一个阈值,其值表示在输出的异常表中标记为异常的记录数占输入数据中总的记录数的百分比,并且在输出视图中给出这个百分比下,异常指数的阈值(目前视图未给出)。
异常记录数
设置一个阈值,表示在异常表中标记为异常记录的数量,根据每条记录的异常指数从大到小进行标记。并且在输出视图中给出这个百分比下,异常指数标的阈值。
要报告的异常字段数
指定要报告的异常字段数,报告中说明记录被标记为异常的原因。将报告最异常字段,最异常字段指的是与记录所属聚类的字段标准偏差最大的字段。
调整系数
用于平衡在计算距离时赋予连续(数字范围)和分类字段的相对权重的数值。值越大,连续字段的影响也越大,它必须为非 0 值。
自动计算对等数
用于快速分析大量可能的解决方案,以选择异常判断时的最佳聚类数。可通过设置对等组的最大值和最小值来扩大或缩小聚类数范围。较大的值可使系统在更大范围内搜索可能的解决方案,但是,消耗的处理时间也随之增加。
指定对等组数
人为指定异常分析时聚类的数量,一般而言,选中此选项可提高性能。
端口
输入端口

0

输入表

输出端口

0

异常表

视图
异常分析图
异常分析图