分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词,在词库中进行搜索匹配,将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。
输入
一个输入端口,用于接收数据集
输出
一个输出端口,用于输出分词后的结果。
参数名称
说明
备注
字段选择
选择需要分词的字段列(必须是文本型字段)
必填
自定义词典
支持两种方式输入自定义词:
分词算法包括:
使用全局词典中的词辅助进行分词。配置全局词典请参考 。
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图: