页面树结构
转至元数据结尾
转至元数据起始

我们选择层次聚类进行分析,尝试根据各种汽车的销售量、价格、引擎、马力、轴距、车宽、车长、制动、排量、油耗等指标对其分类。
因为层次聚类不能自动确定分类数量,因此需要我们以自定义的方式规定最后聚类的类别数。层次聚类节点配置如下(默认配置):

可以使用交互表或者右击层次聚类节点查看聚类的结果,如下图所示:


再使用饼图查看每个类的大小。饼图配置如下:

结果如下:

从图中可见,分成的三个类样本数差异太大,cluster_0和cluster_1包含的样本数都只有1,这样的分类是没有意义的,因此需要重新分类。我们尝试在层次聚类节点的配置中指定新的聚类方法:完全。新的聚类样本数分布如下:

cluster_0、 cluster_1、cluster_2的样本数分别为:50、9、93。

执行后输出树状/冰柱图,可以从上往下看,一开始是一大类,往下走就分成了两类,越往下分的类越多,最后细分到每一个记录是一类,如下所示:
我们可以再使用条形图查看每类的销售量、平均价格,如下图所示:

每类总销量分布图

每类平均销量分布图

每类平均价格分布图
我们再看一下每类的销售额分布情况。首先,我们需要使用Java代码段节点或者派生节点生成销售额字段,配置如下:

再使用饼图查看销售额分布情况,cluster_0、 cluster_1、cluster_2的市场份额分别为:32.39%、0.53%和67.08%,如下图所示:

  • 无标签