页面树结构

词频统计帮助文档

如何使用 S martbi 词频统计 功能

词频即词语出现的次数,词频分析是Smartbi文本挖掘的一个重要手段。它通过对词语或关键字在文档中出现的次数分析可从大量文本数据中抽取出未知的、重要的、有价值的知识。下面以山东烟台旅游新闻文章的词频分析为例演示:

注意:使用词频分析功能前,请确保已经部署了挖掘的引擎包,能够正常使用数据挖掘实验功能。

1.新建实验:

    进入Smartbi ,按照下图1.1的操作进行新建实验。

图1 .1 :新建实验

2.数据源连接:

    这个步骤主要是完成文本数据的对接。具体操作方法:第一步在实验界面的左侧数据源目录里面选择对应的数据源(支持关系数据源、文本数据源等)。第二步在右侧完成数据源的表选择参数配置。

注意:这里是选择已经平台已创建好的数据源,如何新创建数据源的教程请参考: 数据源连接 http://wiki.smartbi.com.cn:18081/pages/viewpage.action?pageId=44500307

具体操作参考如下图2.1数据源连接:

图2. 1 :数据源连接

测试数据源是否对接成功,可以右键【关系数据源】“执行到此处“(会提示先保存实验):

图2.2:执行组件

图2.3:保存实验

保存后再右键组件“执行到此处”,显示为绿色即为执行成果:

图2.4:成功执行节点

右击【关系数据源】组件-查看输出结果(以下即是此案例的源数据,关于烟台旅游介绍文章):

图2.5:查看源数据

3.文本数据处理:

这个步骤主要目的是将源数据里面的文本数据进行处理,让词频统计更加准确有效。【关系数据源】中的数据为文本数据,支持使用【分词】节点将文本数据分割为标签词,如果文本是英文,也可以直接使用【词袋】。根据需要选择【停用词处理】节点,删除一些无关的词汇。

注意:【关系数据源】组件的连接其他组件的方式是直接点击组件的中间圆圈拖拉箭头线到下面的组件。完成组件的连接。

如下图3.1:采用了【分词】对整篇文本进行分割成一个一个的标签词汇,并且用【停用词处理】组件将问号、逗号等无用的词去掉。

图3.1:文本数据处理

【分词】组件配置方法 :参考下图3.2,点击【分词】节点后,在右侧参数栏进行相应字段选择或自定义标签词。

图3.2:分词组件参数配置

【停用词处理】组件配置方法 :参考下图3.3,点击【停用词处理】节点后,在右侧参数栏停用词列表输入想要忽略掉的词汇。

图3.2:停用词处理参数配置

4.词频统计:

    通过上面步骤将文本数据进行了相应处理后,开始进行词频统计,来查看山东烟台旅游资讯里面的热词出现次数。

具体操作参考图4.1词频统计的配置。

图4.1:词频统计配置

配置好后,右击【词频统计】执行到此处,查看输出结果:

 

图4.2:词频统计的输出结果

5.分析结果保存:

    词频分析的结果数据,可以直接保存到数据库中去。详情参考下图5.1 : 保存分析结果。

图5.1:保存分析结果

6.可视化应用:

这个步骤目的是利用Smartbi丰富的可视化手段,词云图、柱状图等进行可视化展现词频统计的结果。得出如下图6.1的词云图效果。操作过程略,详情参考Smartbi新建图形操作。

通过词云图可以看到烟台旅游的一些标签热词,如“度假“、”沙滩“、”蓬莱“ ……… 能够侧面看出外界对于这个城市旅游业的重要关注点。

图6.1:词云图效果