页面树结构
转至元数据结尾
转至元数据起始

语义聚类节点的功能是基于距离矩阵字段和层次聚类算法对文本进行语义聚类。将语义相似的对象聚在一个类。
注意: 由于它的复杂性,这个节点仅对小数据集有效。
层次聚类有两种方式:
自顶向下或分裂,即,这个算法以一个所有点组成的大的聚类开始,最不相似的数据点分成子类,直到每个聚类由一个数据点组成。
自底向上或聚合,即这个算法从每一个数据点开始,深度合并最相似的数据点到上一级,直到合成一个包含所有子类的大类。
为了度量聚类之间的距离,提供了有三种测量方式:
最短距离:类间距离等于两类对象之间的最小距离,若用相似度衡量,则是各类中的任一对象与另一类中任一对象的最大相似度。
最长距离:类间距离等于两组对象之间的最大距离。
平均距离:类间距离等于两组对象之间的平均距离。
这个节点使用的距离信息是从距离向量列中读取的或者是直接通过连接的距离算出来的。您可以使用相应的距离计算节点计算距离矩阵。
对话框选项
距离矩阵字段
选择一个距离矩阵字段。
聚类方法
选择度量聚类之间距离的测量方式(如上所述)。
忽略缺失值
默认勾选此项,节点完全忽略带有缺失值的行。如果禁用该项,遇到缺失值将中止执行并报错。
端口
输入端口

 0

距离矩阵表

输出端口

0

语义聚类表

视图
树状图/距离视图
树状图: 这个视图以树状图的形式展示了全部的聚类层级。地步都是数据点(即用于分类的对象)。距离最近的点会被连接在一起,连接的高度代表他们之间的距离大小。 因此,y坐标显示聚合后的距离同时也是层次水平。x轴显示的是表示单个数据点行ID的名义型数据。
距离视图:显示各行之间距离的分布趋势图。

  • 无标签