...
本文采用示例数据源“深圳企业信息”作为输入。若是想使用其他数据来源,操作详情可参考输入数据
2.3 配置参数
2.3.1 字段选择
字段选择,支持用户选择需要分词的字段(仅限文本类型的数据)。 字段选择,支持用户选择需要分词的字段(仅限文本类型的数据)。
2.3.2 词典
词典,用来满足用户根据不同专业领域制定不同的分词规范的需求,从而提高分词准确率。
...
算法名称 | 算法说明 | 应用场景 |
---|---|---|
Ansj | 可直接根据系统词库分出人名、机构等信息。但是多单词英文姓名无法分出。 | 适用于不使用自定义词典的场景。 |
Hanlp | 可分出多单词的英文名称。 | 词典数据可包含空格。 自定义词典数据可包含空格。 |
Jieba | 自定义分词方便。 |
...