页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

...

本文采用示例数据源“深圳企业信息”作为输入。若是想使用其他数据来源,操作详情可参考输入数据

2.3 配置参数

2.3.1 字段选择

字段选择,支持用户选择需要分词的字段(仅限文本类型的数据)。 字段选择,支持用户选择需要分词的字段(仅限文本类型的数据)。

2.3.2 词典

词典,用来满足用户根据不同专业领域制定不同的分词规范的需求,从而提高分词准确率。

...

算法名称

算法说明

应用场景

Ansj

可直接根据系统词库分出人名、机构等信息。但是多单词英文姓名无法分出。

适用于不使用自定义词典的场景。
(配置Ansj分词算法时,系统会优先使用自带的词典的词组,无论用户是否适用自定义词典。)

Hanlp

可分出多单词的英文名称。
但是,以文件添加自定义词典速度略慢。

词典数据可包含空格。 自定义词典数据可包含空格。


Jieba

自定义分词方便。
以文件添加自定义词典比Hanlp 速度快。

...