页面树结构
转至元数据结尾
转至元数据起始

文本分类节点的功能是对基于从文本中提取的关键字而组成了结构化信息来预测每个文本应该属于哪一类。例如,一个企业之前已经对用户的投诉信息进行了人工分类,由于这个方法比较笨拙,效率太低,人力成本也过高,因此希望能够通过挖掘的算法建立一个预测模型,从之前已经分好类的历史数据中提炼规则,使用该预测模型对以后新的投诉信息进行自动分类,这个问题就可以使用文本分类算法解决。文本分类算法是以贝叶斯算法为基础,面向文本分类问题改造而来。注意,该节点的输入字段的取值必须是非负的,基本都是从非结构化的文本数据转换而来。通常的做法是,原始的数据表中有一个文本字段和一个标记文本类型的字段,要建立文本与分类直接的预测模型,首先要使用分词节点从文本中提取有代表性的关键字,然后使用设为标志节点或者重新结构化节点统计这些词在每条文本中是否出现(取值为0和1)或者出现次数(取值为非负整数),每个关键字为一个字段,生成了一张以这些关键字是否在每条文本中出现或者出现次数的结构化的数据表,进而将这些关键字段作为输入(即为代表文本特征的属性),标记文本分类的字段为目标,基于文本分类节点建立分类预测模型。
注意,该节点的输入表必须满足以上描述的类似数据表格式。另外,该节点必须要和类型节点一起使用,在该节点之前使用类型节点定义哪些字段作为输入,哪个字段作为目标。
对话框选项
选择分类方法
这里有两个分类方法可供选择,分别是伯努利和多项式。
多项式方法以文档为计算单位,计算公式为
Pxiyk=Nykxi+1Nyk+2
其中,Nykxi是类别yk下特征xi出现的总次数,Nyk是类别yk所有特征出现的总次数。
在伯努利模型中,其特征用的是全局的特征, 每个特征的取值是布尔型的,即1和0,所以Nykxi是类别yk下特征xi出现的样本数,Nyk是类别yk所有特征出现的样本数。
在文本分类中,多项式和伯努利的主要区别是多项式计算为文档中特征词计数,而伯努利特征词即使在文档中出现多次,也计数为1。所以,伯努利没有考虑特征词的在文档的词频,计算量小些,但是损失了词频信息,多项式考虑了词频因素,但是计算量大,而且容易出现某个特征词只在某篇文档的词频数太大而导致概率增大的问题。在使用的过程中,如果词频分布均衡,优先选择多项式,如果词频分布不均衡,或者多项式分类效果不理想,推荐使用伯努利方法。
端口
输入端口

0

输入表

输出端口

0

文本分类预测表

1

文本分类模型

  • 无标签