页面树结构
转至元数据结尾
转至元数据起始

关键字提取节点的功能是使用卡方统计量或者图方法分析文档并提取相关的关键字。首先,最常见的词会被提取,并使用逐点交互信息和归一化L1范数对其进行聚类。如果一个词和一个聚类中所有的词都相似,那么这个词可以认为是这个类的成员。 如果有多个类满足条件,最终将取决于平均得分最高的类。如果有相似的类,就会生成一个新的类。
对话框选项
提取方式
目前这里有两种关键字提取方式:卡方关键字提取和图关键字提取。卡方关键字提取的方法是基于卡方检验的思想,原假设两个变量是独立的,计算实际观察值和理论值之间的偏差程度,如果偏差足够小,小于设定的阀值,就接受原假设,认为两个变量是独立的,否则拒绝原假设,认为两个变量是相关的。因此,通过卡方检验可用于文本分类问题中的特征选择,此时不需要设阀值,只关心找到最为相关的topN个特征。基于图的方法,是把图分割成群,其中图描述了一篇文档中术语之间同时出现的关系。每个群对应一个作为作者思想基础的概念,根据每个术语和它们群之间关系采用统计方法得出排序最高的术语被挑选出来作为关键字。这种策略来源于认为一篇文档的架构关系是在传统概念的基础上提出新的思想。尽管图方法没有用到每个术语在文集中出现的平均频率,实验结果显示抽取出的术语非常好的符合了作者的观点,这就表明图方法是一个内容敏感但与领域独立的索引策略。
文档字段
选择用于分析的文档字段。
提取关键字的数量
指定提取关键字的数量。
唯一词百分比
文档中唯一词的百分比是用来创建词簇。根据经验法则,该值可以设置为30%。
忽略标签
如果勾选此项,节点只会根据词的内容比较词。换句话说,标签和其他元信息都会被忽略。
逐点交互信息阀值
这些词,如果其逐点交互信息得分大于或等于这个值将被认为是相似的,将会聚类在一起。这种相似性度量的范围是从0到无穷大,但可以使用arctan(value)/(pi/2)将其标准化为0~1。 它用来测量实际共生概率和两个词完全独立情况下共生概率的差异。
归一化L1范数阀值
这些词,如果其归一化的L1范数的得分大于或等于这个值将被认为是相似的,将会聚类在一起。这种相似性度量范围从0到1(包含0和1)。它度量文档中的每个词与其他词共生概率之间的相似性。
高频词集合大小
在选择使用图关键字提取方法时,需要在此处指定高频词的集合大小,默认为30。
高键词集合大小
在选择使用图关键字提取方法时,需要在此处指定高键词的集合大小,默认为12。
端口
输入端口

 0

文档输入表

输出端口

0

关键字提取表

  • 无标签