页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

概述

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录

输入/输出

输入

一个输入端口,用于接收数据集

输出

一个输出端口,用于输出分词后的结果。

参数设置

参数名称

说明

备注

字段选择

选择需要分词的字段列(必须是文本型字段)

必填

自定义词典

点击自定义词按钮,在对话框中填写自定义词,每行填写一个自定义词

 

示例

使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图:

Image Added