该节点提供了不同的算法去搜索频繁项集。集成的算法包括:
Apriori
FP生长
RElim
SaM
JIM
Apriori: Apriori算法对其进行子集格的广度优先搜索。这是一个很快实现,使用前缀树组织项集计数。
FP生长: 该算法表示将事务数据库作为前缀树,它通过将节点组织到列表中并指向同一项目来提升。 该搜索是通过投射前缀树、递归地运行和修剪原始树进行。
RElim: 递归消除算法是受FP生长算法的启发,但是它没有前缀树或其他复杂的数据结构。 该算法的主要优势不是因为它的速度,而是其结构简单。基本上,所有的工作都是在一个仅有几行代码的递归函数中完成。
SaM: 分裂合并算法结合深度优先遍历一个水平交易表示的子集格。该算法的优势也是因为其简单的结构,它只使用一个简单的数组作为唯一的数据结构。
JIM: 它使用Eclat算法的扩展寻找Jaccard项集。类似于频繁项集的挖掘(试图发现事务数据库中支持度超过用户指定阈值(最小支持度)的项集), Jaccard项集的Jaccard指数涵盖了用户指定的阈值。这一措施比简单支持度更好评估项目的关联强度。
对话框选项
配置
项字段
选择包含项目集的字段。
算法
选择使用的算法。对于不同算法的描述请见上文。
目标类型
生成的项集类型包括:
频繁:所有的频繁项集。
关闭:一套常见但不具有相同支持的超集。
最大:一套不包含频繁超集的频繁项集。
最小项集大小
设置项集的最小大小。
最小支持度
您可以指定在规则集中保留规则的支持度标准。支持度指的是训练数据中条件(规则中的"if"部分)为真的记录的百分比。
阀值
这可以为某些算法启用可选参数。这些算法包含的阀值描述如下:
Apriori: 最小规则置信度(默认:80%)。
RElim: 项集最小权重(默认:10%)。
SaM: 项集最小权重(默认:10%)。
JIM: 项集最小Jaccard指数(默认:10%)。
按项集排序
如果勾选该选项,频繁项集中的项目将按升序排序。
端口
输入端口
0 |
交易清单 |
输出端口
0 |
项集 |