页面树结构
转至元数据结尾
转至元数据起始



第一步,使用Excel节点读取数据,配置如下:

注意,由于MID字段为数值型,且太长,因此这里默认以科学计数法的方式表示,如果想改为正常显示,则可以单击字段名称,弹出一个更改字段类型的对话框,如上图所示,将类型改为String类型即可。更改后如下图所示:

第二步,使用R代码段节点,借助R的编程能力利用关键字提取提及的微博用户。代码如下:
smartR.out<-smartR.in
library(data.table)
library(stringr)
At<-str_extract_all(smartR.in$"Weibo","@\\b\\w*
b")
textnumber = rep(1:nrow(summary(At)),as.numeric(summary(At)[,1]))
smartR.out<-data.frame(提及用户=unlist(At),句子=textnumber)
节点配置如下:

第三步,使用汇总节点,以句子为组,以提及用户为选项建立列表。节点配置如下:


第四步,使用Apriori节点通过关联分析算法训练规则。节点配置如下:

计算生成的结果如下:

前项和后项
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为前项和后项 。其中,关联规则XY,存在支持度和置信度。
假设

的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
第五步,派生规则质量字段。我们定义规则质量=支持度*规则置信度,配置如下:

第六步,对前项和规则质量字段按照降序进行二重排序。配置如下:


第七步,筛选规则质量在20以上的记录。配置如下:

第八步,使用Java代码段节点派生边id字段。

经过以上八步处理结果如下表所示:

  • 无标签