页面树结构
转至元数据结尾
转至元数据起始

该案例的工作流如下:

该工作流从读取Excel文件开始。首先使用分词对文档进行分词,并使用一系列的手段对词进行过滤。然后,从这些词中提取出最关键的词,并基于关键词生成标志型字段。这些字段将会作为针对文档进行分类预测的影响因素,之后以这些指标为输入,以文档类别为目标建立文档的分类预测模型。
读取数据后,首先使用分词节点对日志字段的记录进行分词,配置如下:

然后,对噪声词进行过滤,配置如下:

执行后,得到如下的过滤表:

之后进入数据准备阶段。使用一系列手段对词进行过滤,具体的工作流如下:

第一步,将所有字符都转换为小写,配置如下:

第二步,过滤不需要的字段,配置如下:

生成的选择表如下:

第三步,对分词字段进行汇总,配置如下:

第四步,选择计数大于15的记录,配置如下:

生成的选择表如下:

对于词云展示来说,数据准备进行到这一步就已足够,词云图如下:

对于文本分类来说,数据准备还要继续进行第五步,参考行过滤。第二步生成的过滤表作为数据表,第四步生成的选择表作为参考表,配置如下:

第五步,重新结构化,对日志和类型字段进行分组并采用唯一计数的方式进行计数,配置如下:



第六步,批量重命名,将字段名中的"+计数"去掉,配置如下:

最后,生成如下的重命名表:

至此,就完成了文本分类的数据准备,可以进行文本分类了。首先进行缺失值填充,配置如下:

然后使用类型节点,指定"类型"字段为目标,配置如下:

最后,利用朴素贝叶斯节点对文本进行分类,配置如下:

得到如下的预测表和分类预测模型:


  • 无标签