正在查看旧版本。 查看 当前版本.
与当前比较 查看页面历史
« 前一个 版本 2 下一个 »
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。
输入
一个输入端口,用于接收数据集
输出
一个输出端口,用于输出分词后的结果。
参数名称
说明
备注
字段选择
选择需要分词的字段列(必须是文本型字段)
必填
自定义词典
点击自定义词按钮,在对话框中填写自定义词,每行填写一个自定义词
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图: