页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

名称

功能说明

生效范围

优先级

配置方式
自定义词典

用户可以添加业务用词、新词(未被系统自带词典收录的),作为重新组合词序列的规范。

只为当前实验使用。

自定义词典的效果优先级>全局词典>系统自带词库。
(Ansj分词算法除外)

用户可通过两种方式输入自定义词:

  • 手动输入,每行填写一个自定义词;
  • 上传文件,只支持上传txt、dic、dict类型的UTF-8的文件,文件中每行填写一个自定义词且不超过一万行。
全局词典

在系统中所有实验中使用。

配置全局词典请参考引擎设置



2.3.3 分词算法

由于不同分词算法各有优劣,产品提供的分词算法可以满足用户根据不同的需求选用不同的算法。

Image Modified

算法名称

算法说明

应用场景

Ansj

可直接根据系统词库分出人名、机构等信息。但是多单词英文姓名无法分出。

适用于不使用自定义词典的场景。
(配置Ansj分词算法时,系统会优先使用自带的词典的词组,无论用户是否适用自定义词典。)

Hanlp

可分出多单词的英文名称。
但是,以文件添加自定义词典速度略慢。

适用于词典数量少于五千万,词典数据可包含空格。

Jieba

自定义分词方便。
以文件添加自定义词典比Hanlp 速度快。

适用于词典数量大于五千万,词典数据不可包含空格。

2.4 输出数据

如下图所示,分词是将 企业名称 进行分词,企业名称_seg为分词后的字符串型结果,企业名称_seg_words为分词后的WrappedArray类型结果。

注意事项

通过分词会输出array数据类型的字段列 "***seg_words" ,考虑到目前大部分目标数据库没有与之匹配的数据类型,因此,建议先通过 列选择 过滤掉array类型字段,再导出到目标源。

...