页面树结构
转至元数据结尾
转至元数据起始

层次聚类也叫系统聚类。通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。   注意: 该节点只能在小数据集上运行。它保存全部的数据在内存中计算,并且具有立方体的复杂性。   具体又可分为凝聚的,分裂的两种方案:
凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中, 或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。
  为了定义类间的距离必须定义一种度量距离的方法。主要有以下三种方法:
最短距离:类间距离等于两类对象之间的最小距离,若用相似度衡量,则是各类中的任一对象与另一类中任一对象的最大相似度。
最长距离: 组间距离等于两组对象之间的最大距离。
平均距离: 组间距离等于两组对象之间的平均距离。
为了度量两点之间的距离,选择一个度量方法是有必要的。您可以选择欧式距离或者曼哈顿距离,这符合L1和L2范数。
输出的数据表只比输入表多一个聚类字段。层次聚类算法产生一系列的聚类结果,聚类的数量和对话框指定的聚类数是一致的。
对话框选项
聚类数
层次聚类的层次,也即输出的类中心的数量。
距离函数
用于计算数据点间距离的度量方法。
聚类方法
衡量类别之间距离的方法。
缓存距离
通过缓存数据点之间的距离值来提高高维数据集的计算效率。它需要大量的内存,因此您在使用时应结合数据集的大小考虑内存情况。
端口
输入端口

 0

使用层次聚类算法进行聚类的输入数据。只可以使用数值型字段,名义型字段将被忽略。

输出端口

0

在输入数据中追加有聚类结果字段的数据表。

视图
树状/冰柱视图
树状图: 这个视图以树状图的形式展示了全部的聚类层级。地步都是数据点(即用于分类的对象)。距离最近的点会被连接在一起,连接的高度代表他们之间的距离大小。 因此,y坐标显示聚合后的距离同时也是层次水平。x轴显示的是表示单个数据点行ID的名义型数据。
冰柱图: 形状类似于冬天屋檐上垂下的冰柱,因此得名。x轴:个案,表示被聚类的对象;y轴:群集数,表示被聚成几类;观察冰柱图应从最后一行开始。冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果,还能表现出聚类的过程步骤,生动形象;缺点是不能表现出聚类过程中距离的大小。

  • 无标签