演示0

该案例的工作流如下：

该工作流从读取Excel文件开始。首先使用分词对文档进行分词，并使用一系列的手段对词进行过滤。然后，从这些词中提取出最关键的词，并基于关键词生成标志型字段。这些字段将会作为针对文档进行分类预测的影响因素，之后以这些指标为输入，以文档类别为目标建立文档的分类预测模型。
读取数据后，首先使用分词节点对日志字段的记录进行分词，配置如下：

然后，对噪声词进行过滤，配置如下：

执行后，得到如下的过滤表：

之后进入数据准备阶段。使用一系列手段对词进行过滤，具体的工作流如下：

第一步，将所有字符都转换为小写，配置如下：

第二步，过滤不需要的字段，配置如下：

生成的选择表如下：

第三步，对分词字段进行汇总，配置如下：

第四步，选择计数大于15的记录，配置如下：

生成的选择表如下：

对于词云展示来说，数据准备进行到这一步就已足够，词云图如下：

对于文本分类来说，数据准备还要继续进行第五步，参考行过滤。第二步生成的过滤表作为数据表，第四步生成的选择表作为参考表，配置如下：

第五步，重新结构化，对日志和类型字段进行分组并采用唯一计数的方式进行计数，配置如下：

第六步，批量重命名，将字段名中的"+计数"去掉，配置如下：

最后，生成如下的重命名表：

至此，就完成了文本分类的数据准备，可以进行文本分类了。首先进行缺失值填充，配置如下：

然后使用类型节点，指定"类型"字段为目标，配置如下：

最后，利用朴素贝叶斯节点对文本进行分类，配置如下：

得到如下的预测表和分类预测模型：

关注我们

服务支持

页面树结构

演示0