页面历史

概述

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。它是对句子进行精确分词，在词库中进行搜索匹配，将句子根据匹配的结果分成那些常见的词组或者单词。常用于做文本挖掘分析。分词，是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程；换句话说，它能够自动识别出文本的词，在词库中进行搜索匹配，根据匹配的结果在词间加入边界标记符(如“/ ”等)，分隔出各个词组。

为什么需要分词？

分词可帮助用户对海量信息的整理更准确更合理，提高信息处理效率，常用于做文本挖掘分析。
分词工作看似细微，但它对后续文本挖掘的关键作用是不容忽视的。若是分词效果不佳，即使后续算法优秀也无法实现理想的效果。

面板

borderColor	#BBBBBB
bgColor	#F0F0F0
borderWidth	1
borderStyle	solid

目录

输入/输出

输入	一个输入端口，用于接收数据集
输出	一个输出端口，用于输出分词后的结果。

参数设置

参数名称

说明

备注

字段选择

选择需要分词的字段列（必须是文本型字段）

必填

自定义词典

支持两种方式输入自定义词：

手动输入，每行填写一个自定义词；
上传文件，只支持上传txt、dic、dict类型的UTF-8的文件，文件中每行填写一个自定义词且不超过一万行。

分词算法

分词算法包括：

Ansj（默认）：可直接根据系统词库分出人名、机构等信息。但多单词英文姓名无法分出，且使用自定义词典时，系统词典还是优先被使用。适用于不使用自定义词典的场景。
Hanlp：可分出多单词的英文名称，且词典数据可包含空格。添加自定义词典的速度较慢。

启用全局词典

使用全局词典中的词辅助进行分词。配置全局词典请参考引擎设置。

示例

使用“垃圾短信识别”数据，选择文本列数据进行分词，自定义词典默认，则会默认从词库进行搜索匹配进行分词，若自定义词典里设定词组则优先匹配词典里的词组，分词结果输出如下图：

Image Removed

操作指南

功能流程

从左侧资源树的 文本分析 中拖拽分词节点到画布中，选择数据输入，配置分词的参数（词典、算法等），最后再按需输出数据。

Image Added

输入数据

详情可参考输入数据

配置参数

字段选择

选择需要分词的字段（仅限文本类型的数据）。
Image Added

自定义词典

由于不同专业领域具有不同的词典构造，自定义词典就可以满足用户根据不同的需求制定不同的分词标准，从而提高分词准确率。

Image Added

功能名称

说明

生效范围

优先级

备注

自定义词典

支持用户可以添加业务用词、新词（未被系统自带词典收录的），作为重新组合词序列的规范。

只为当前实验使用。

自定义词典的效果优先级>全局词典>系统自带词库。
（Ansj分词算法除外）

支持两种方式输入自定义词：

手动输入，每行填写一个自定义词；
上传文件，只支持上传txt、dic、dict类型的UTF-8的文件，文件中每行填写一个自定义词且不超过一万行。

全局词典

在系统中所有实验中使用

配置全局词典请参考引擎设置。

分词算法

由于不同分词算法各有优劣，产品提供的分词算法可以满足用户根据不同的需求选用不同的算法。

Image Added

算法名称	算法说明	应用场景
Ansj	可直接根据系统词库分出人名、机构等信息。但是多单词英文姓名无法分出。	适用于不使用自定义词典的场景。（配置Ansj分词算法时，系统会优先使用自带的词典的词组，无论用户是否适用自定义词典。）
Hanlp	可分出多单词的英文名称。但是，以文件添加自定义词典速度略慢。	适用于词典数量少于五千万，词典数据可包含空格。
Jieba	自定义分词方便。以文件添加自定义词典比Hanlp 速度快。	适用于词典数量大于五千万，词典数据不可包含空格。

输出数据

如下图所示，分词是将 企业名称 进行分词，企业名称_seg为分词后的字符串型结果，企业名称_seg_words为分词后的WrappedArray类型结果。

Image Added

注意事项
通过分词会输出array数据类型的字段列 "***seg_words" ，考虑到目前大部分目标数据库没有与之匹配的数据类型，因此，建议先通过列选择过滤掉array类型字段，再导出到目标源。

页面树结构

版本比较

旧版本 6

新版本 7

标识

概述

输入/输出

参数设置

示例

操作指南

功能流程

输入数据

配置参数

字段选择

自定义词典

关注我们

服务支持