输入/输出
输入 | 一个输入端口,用于接收数据集 |
---|---|
输出 | 一个输出端口,用于输出分词后的结果。 |
参数设置
参数名称 | 说明 | 备注 |
---|---|---|
字段选择 | 选择需要分词的字段列(必须是文本型字段) | 必填 |
自定义词典 | 支持两种方式输入自定义词:
| |
分词算法 | 分词算法包括:
| |
启用全局词典 | 使用全局词典中的词辅助进行分词。配置全局词典请参考 。 |
示例
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图:
输入 | 一个输入端口,用于接收数据集 |
---|---|
输出 | 一个输出端口,用于输出分词后的结果。 |
参数名称 | 说明 | 备注 |
---|---|---|
字段选择 | 选择需要分词的字段列(必须是文本型字段) | 必填 |
自定义词典 | 支持两种方式输入自定义词:
| |
分词算法 | 分词算法包括:
| |
启用全局词典 | 使用全局词典中的词辅助进行分词。配置全局词典请参考 。 |
使用“垃圾短信识别”数据,选择文本列数据进行分词,自定义词典默认,则会默认从词库进行搜索匹配进行分词,若自定义词典里设定词组则优先匹配词典里的词组,分词结果输出如下图: