数据准备1

第一步，使用Excel节点读取数据，配置如下：

注意，由于MID字段为数值型，且太长，因此这里默认以科学计数法的方式表示，如果想改为正常显示，则可以单击字段名称，弹出一个更改字段类型的对话框，如上图所示，将类型改为String类型即可。更改后如下图所示：

第二步，使用R代码段节点，借助R的编程能力利用关键字提取提及的微博用户。代码如下：
smartR.out<-smartR.in
library(data.table)
library(stringr)
At<-str_extract_all(smartR.in$"Weibo","@\\b\\w*
b")
textnumber = rep(1:nrow(summary(At)),as.numeric(summary(At)[,1]))
smartR.out<-data.frame(提及用户=unlist(At),句子=textnumber)
节点配置如下：

第三步，使用汇总节点，以句子为组，以提及用户为选项建立列表。节点配置如下：

第四步，使用Apriori节点通过关联分析算法训练规则。节点配置如下：

计算生成的结果如下：

前项和后项
关联规则是形如X→Y的蕴涵式，其中， X和Y分别称为前项和后项。其中，关联规则XY，存在支持度和置信度。
假设

是项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
第五步，派生规则质量字段。我们定义规则质量=支持度*规则置信度，配置如下：

第六步，对前项和规则质量字段按照降序进行二重排序。配置如下：

第七步，筛选规则质量在20以上的记录。配置如下：

第八步，使用Java代码段节点派生边id字段。

经过以上八步处理结果如下表所示：

关注我们

服务支持

页面树结构

数据准备1