噪声词过滤节点的功能是将分词字段中的无关词汇或者不重要的词过滤掉,进而筛选出重要的词汇。过滤的方法有五种,分别是过滤与内置的噪声词库匹配的词汇、过滤与自定义噪声词库匹配的词汇、过滤所有的标点符号、过滤所有的数字和过滤所有字节长度小于N的词。这种五种方法可以只选择一个进行过滤,也可以选择全部进行过滤。过滤后输出表中的列数保持不变,只会过滤掉匹配条件的记录。
对话框选项
使用内置噪声词库
如果勾选此项,将会过滤掉分词字段中与内置噪声词库匹配的记录。
自定义噪声词库
如果您需要让程序根据您指定的噪声词汇进行过滤,请将包含您指定的包含噪声词的表连接到第二个输入端口(自定义噪声词库)。如果选择使用自定义噪声词库,请在后面下拉框中选择包含噪声词的字段。
区分大小写
如果勾选此项,在与噪声词库中的词匹配时会区分大小写。
过滤数字
如果勾选此项,将会过滤掉选择的分词字段中所有只有数字组成的词。
过滤标点符号
如果勾选此项,将会过滤掉选择的分词字段中所有只有标点符号组成的词。
过滤字节数
如果勾选此项,还需要在后面的文本框中定义字节数,将会过滤掉选择的分词字段中所有字节长度小于指定值的词。
端口
输入端口
0 |
输入表 |
1 |
自定义噪声词库(可选) |
输出端口
0 |
过滤表 |