页面树结构
转至元数据结尾
转至元数据起始

众所周知,模糊C均值聚类算法是一种用于揭示数据潜在结构无监督学习算法。它允许每个数据点归属与多个类中心,并为每一个都计算隶属程度。 为了获得更好的聚类结果,必须保证输入数据已经标准化处理。  您可以在第二个选项卡中设置属性列表。 第一个输出表是包含了聚类成员的原始输入表。第二个数据表包含了聚类模型。 如果可选的PMML输入端口被连接,并且转换字典中包含预处理的操作,则它们都将会被添加到训练模型中。
对话框选项
聚类数
类中心的数量。
最大迭代数
用于执行的最大迭代次数。
模糊化
显示允许重叠的聚类数。
使用静态种子
如果选中此项,将使用一个固定的随机种子为数据集提供一个初始的类中心。
包含噪声类
用于选择是否包含噪声类。
设置差值(delta)
6.3.3. Delta 是指每个数据点到噪声类中心之间的固定距离。
自动设置差值(delta)并指定常数(lambda)
在每次迭代中,基于平均距离更新Delta的值。然而,必须根据类的形状设置lambda的参数值。
在内存中执行
如果选中此项,将会在内存中进行聚类计算,提高运行效率。
计算类质量度量
这里指定是否为聚类计算质量度量值。当数据集较大时,会消耗大量的内存和时间。
端口
输入端口

0

标准化后的训练数据集。

1

包含预处理操作的可选的 PMML模型输入端口。

输出端口

0

在输入表中添加类成员字段的数据表。

1

在输入表中添加类成员及到各类中心的度量字段的数据表。

2

包含类中心等信息的PMML模型。

视图
模型结果
显示了中心变异内部和中心变异间好的聚类。

  • 无标签