页面树结构
转至元数据结尾
转至元数据起始

分词节点的功能是用于对中文或者英文文本进行分词,进而从非结构化数据中提取结构信息。分词的对象都是每列字段。分词后将在输出表中追加分词、计数和词性三个字段。分词字段表示从文本字段中提取出词;计数字段表示按照每个文本对得到每个分词出现次数的统计,注意,统计的只是每次词所在文本中出现的次数,并不是所有文本中出现的次数;词性字段显示的每个分词的词性。
对话框选项
分词词库
请在这里选择分词所需的词库。目前,只有中文词库和英文词库。如果要对中文文本分词请选择中文词库,如果要对英文文本分词,请选择英文词库。
选择文本字段
请在这里选择要分词的文本字段。分词程序将对该字段进行分词。
自定义词库
从自定义词库输入表中选择包含新增词的字段。这个功能主要用于自定义词库,用户可以基于该功能将一些词库中没有的新词添加到分词词库中,以提高分词的准确率。这些新增词在程序执行后不会添加到程序自带的词库中,只是临时使用。
端口
输入端口

0

输入表

1

自定义词库(可选)

输出端口

0

分词表

  • 无标签