页面历史

...

从左侧资源树的 文本分析 中拖拽分词节点到画布中，选择数据输入，配置分词的参数（词典、算法等），最后再按需输出数据，具体操作步骤请浏览以下内容。

2.2 输入数据

本文采用示例数据源“深圳企业信息”作为输入。若是想使用其他数据源，操作详情可参考“深圳企业信息”作为输入。若是想使用其他数据来源，操作详情可参考输入数据

2.3 配置参数

2.3.1 字段选择

字段选择，支持用户选择需要分词的字段（仅限文本类型的数据）。

...

词典，用来满足用户根据不同专业领域制定不同的分词规范的需求，从而提高分词准确率。

自定义词典的效果优先级>全局词典>系统自带词库。
（Ansj分词算法除外）

名称

功能说明

生效范围优先级

配置方式

自定义词典

用户可以添加业务用词、新词（未被系统自带词典收录的），作为重新组合词序列的规范。

只为当前实验使用。

只为当前的分词节点使用。

用户可通过两种方式输入自定义词：

手动输入，每行填写一个自定义词；
上传文件，只支持上传txt、dic、dict类型的UTF-8的文件，文件中每行填写一个自定义词且不超过一万行。

全局词典

在系统中所有实验中使用。

配置全局词典请参考引擎设置。

...

算法名称

算法说明

应用场景

Ansj

可直接根据系统词库分出人名、机构等信息。但是多单词英文姓名无法分出。

适用于不使用自定义词典的场景。
（配置Ansj分词算法时，系统会优先使用自带的词典的词组，无论用户是否适用自定义词典。）

Hanlp

可分出多单词的英文名称。
但是，以文件添加自定义词典速度略慢。适用于词典数量少于五千万，词典数据可包含空格。

词典数据可包含空格。

Jieba

自定义分词方便。
以文件添加自定义词典比Hanlp 速度快。
适用于词典数量大于五千万，词典数据不可包含空格。

2.4 输出数据

如下图所示，分词是将 企业名称 进行分词，企业名称_seg为分词后的字符串型结果，企业名称_seg_words为分词后的WrappedArray类型结果。

...

通过分词会输出array数据类型的字段列 "***seg_words" ，考虑到目前大部分目标数据库没有与之匹配的数据类型，因此，建议先通过 列选择 过滤掉array类型字段，再导出到目标源。过滤掉array类型字段，或者先通过 元数据编辑 更改array数据类型为字符串，再导出到目标源。

3. 应用案例

请参考产品内置案例：“某政府单位疫情期间网民情绪识别” 和 “垃圾短信识别”。

...

页面树结构

版本比较

旧版本 22

新版本 23

标识

2.2 输入数据

2.3 配置参数

2.3.1 字段选择

2.4 输出数据

3. 应用案例

关注我们

服务支持