页面树结构
转至元数据结尾
转至元数据起始

概述

停用词处理是由于有些词频很高,但对文章却没有太多意义的语气词和助词等等,比如这、我、你们、吗等等,对这些词进行去掉处理以便能够更好的分析语义。常用于关键词提取分析。

输入/输出

输入

一个输入端口,用于需要过滤停用词的字段。

输出

一个输出端口,用于输出去掉停用词之后的结果。

参数设置

参数名称

说明

备注

字段选择

选择需要去除停用词的列

必填

停用词列表

在对话框填写停用词,每行填写一个停用词

必填

示例

使用“深圳企业信息”示例数据,选择分词后去除停用词的列(企业名称_seg_words),填写停用词,输出结果如下图所示: