查看源

输入/输出

输入	一个输入端口，用于接收数据集
输出	一个输出端口，用于输出分词后的结果。

参数名称	说明	备注
字段选择	选择需要分词的字段列（必须是文本型字段）	必填
自定义词典	支持两种方式输入自定义词：手动输入，每行填写一个自定义词；上传文件，只支持上传txt、dic、dict类型的UTF-8的文件，文件中每行填写一个自定义词且不超过一万行。
分词算法	分词算法包括： Ansj（默认）：可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出，且使用自定义词典时，系统词典还是优先被使用。适用于不使用自定义词典的场景。 Hanlp：可分出多单词的英文名称，且词典数据可包含空格。添加自定义词典的速度较慢。
启用全局词典	使用全局词典中的词辅助进行分词。配置全局词典请参考。

使用“垃圾短信识别”数据，选择文本列数据进行分词，自定义词典默认，则会默认从词库进行搜索匹配进行分词，若自定义词典里设定词组则优先匹配词典里的词组，分词结果输出如下图：

Smartbi V9 帮助中心 > 数据挖掘-分词 > 图片1.png