接下来要分析的是:通过中文分词的办法对微博内容进行分析,对每句话中出现的名词进行聚类,从而将语句进行相似性划分,即语义聚类。
进行语义聚类的过程如下:
第一步,使用中文节点对博文进行分词。
节点配置如下:
其中,自定义词汇是通过Excel节点进行定义的,如下:
再使用过滤节点过滤一些字段,配置如下:
第二步,过滤噪声词。使用噪声词过滤节点将分词结果中无效的词过滤掉。配置如下:
第三步,选择要分析的词。
首先,使用excel节点定义要保留的类别。配置如下:
然后,使用参考行过滤节点将词性为名词和自定义的记录筛选出来。配置如下:
第四步,数据转换。
首先,使用过滤节点删除字段Auther、计数。
其次,使用旋转节点生成以MID组,分词为支点,词性为选项的关联矩阵。节点配置如下:
然后,优化数据质量。使用缺失填充节点处理缺失值,配置分别如下:
最后,使用列重命名节点修改字段名称。配置如下:
第五步,生成距离矩阵字段。这是层次聚类(距离矩阵)节点进行聚类需要的输入。需要使用距离矩阵计算节点计算表示距离矩阵的距离字段。配置如下:
第六步,使用语义聚类节点进行聚类。执行后,可右键该节点查看树状图。节点配置如下:
聚类结果和树状图分别如下:
概览
内容工具
活动