层次聚类

层次聚类也叫系统聚类。通过对数据集按照某种方法进行层次分解，直到满足某种条件为止。　　注意: 该节点只能在小数据集上运行。它保存全部的数据在内存中计算，并且具有立方体的复杂性。　　具体又可分为凝聚的，分裂的两种方案:
凝聚的层次聚类是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。
分裂的层次聚类与凝聚的层次聚类相反，采用自顶向下的策略，它首先将所有对象置于同一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终止条件。
　　为了定义类间的距离必须定义一种度量距离的方法。主要有以下三种方法:
最短距离:类间距离等于两类对象之间的最小距离，若用相似度衡量，则是各类中的任一对象与另一类中任一对象的最大相似度。
最长距离: 组间距离等于两组对象之间的最大距离。
平均距离: 组间距离等于两组对象之间的平均距离。
为了度量两点之间的距离，选择一个度量方法是有必要的。您可以选择欧式距离或者曼哈顿距离，这符合L1和L2范数。
输出的数据表只比输入表多一个聚类字段。层次聚类算法产生一系列的聚类结果，聚类的数量和对话框指定的聚类数是一致的。
对话框选项
聚类数
层次聚类的层次，也即输出的类中心的数量。
距离函数
用于计算数据点间距离的度量方法。
聚类方法
衡量类别之间距离的方法。
缓存距离
通过缓存数据点之间的距离值来提高高维数据集的计算效率。它需要大量的内存，因此您在使用时应结合数据集的大小考虑内存情况。
端口
输入端口

0	使用层次聚类算法进行聚类的输入数据。只可以使用数值型字段，名义型字段将被忽略。

输出端口

0	在输入数据中追加有聚类结果字段的数据表。

视图
树状/冰柱视图
树状图: 这个视图以树状图的形式展示了全部的聚类层级。地步都是数据点（即用于分类的对象）。距离最近的点会被连接在一起，连接的高度代表他们之间的距离大小。因此，y坐标显示聚合后的距离同时也是层次水平。x轴显示的是表示单个数据点行ID的名义型数据。
冰柱图: 形状类似于冬天屋檐上垂下的冰柱，因此得名。x轴：个案，表示被聚类的对象；y轴：群集数，表示被聚成几类；观察冰柱图应从最后一行开始。冰柱图的优点是不仅可以显示出不同类数时个案所属的分类结果，还能表现出聚类的过程步骤，生动形象；缺点是不能表现出聚类过程中距离的大小。

关注我们

服务支持

页面树结构

层次聚类