FP-Growth 算法简介
关联规则算法致力于发现隐藏在海量数据中有趣联系,被广泛应用于金融、教育等商业领域。FP-Growth(Frequent Pattern Growth)作为一种经典的关联规则算法,可以高效自动地从数据中挖掘出频繁集合,进而挖掘出潜在的关联规则,这些在企业营销决策的制定过程中具有重要的参考价值。另外,FP-Growth采用高级的数据结构,使其在大数据集上处理效率显著优于其他算法(Apriori),从而加快整个数据挖掘的过程。
应用场景
关联规则的挖掘算法,它是从交易数据商机中被开发出来,用于制定营销策略,典型应用是零售业的购物篮分析,为了找到交易数据中的伴随购买以及购买推荐关系链。
通过发现在交易数据库中不同商品之间的关联规则,找出顾客购买行为,指导企业进行科学的商业活动,例如采取特殊的市场推广活动或手段(给买了啤酒和尿布的客户打折)、货架设计(啤酒和尿布放在相邻位置)等,从而增加两种关联商品的销售量。
应用案例
相关概念
序号 | 概念 | 定义 | 说明 | 业务意义 | ||
---|---|---|---|---|---|---|
1 | 频繁项集 | 频繁项集是指满足支持度最小阈值的所有项集。 | 项,是指我们分析数据中的一个对象;项集,就是若干项的项构成的集合,如集合{牛奶、麦片、糖}是一个3项集。 | 频繁项集表示频繁地并且同时出现在交易数据集中的商品的集合,可用于发现共现事项或者发现事物的热点信息 。 | ||
2 | 支持度 Support | 支持度是指几个频繁关联的数据在数据集中出现的次数占总数据集的比重。 | 假设数据集有 10 条记录,包含{‘牛奶’, ‘面包’}的有 5 条记录,那么{‘牛奶’, ‘面包’}的支持度就是 5/10 = 0.5。 | 支持度表示在关联规则中出现的频率,支持度高说明物品的需求量大。 | 在实际零售场景中,可通过支持度,置信度,提升度综合指标来看待商品组合,发现高价值关联商品,有助于提升客单价 | |
3 | 置信度 Confidence | 置信度是指出现A后又出现B的条件概率,相当于A和B同时出现的概率占A出现概率的比值。 | 假设今天共有10笔订单,其中购买A的次数是8,同时购买A和B的次数是6,则其置信度是6/8=75%。 从关联规则的可信程度角度来看,“购买A的顾客又会购买B”这个商业推测,有75%的可能性是成立的。 | 置信度体现了衡量关联规则的可靠性,置信度高说明物品之间连带紧密。 | ||
4 | 最小支持度 | 最小支持度作为支持度的阈值,满足最小支持度的项集才会输出 | 最小置信度、最小支持度只是在训练模型时起到筛选频繁项集的作用。 | |||
5 | 最小置信度 | 最小置信度作为置信度的阈值,满足最小置信度的项集才会输出 |