一句话+一张图——说清楚Aprioir关联规则算法

4147
0

江湖人称潇洒哥 数据达人Lv4

发表于2018-6-26 08:00

楼主
本帖最后由 江湖人称潇洒哥 于 2018-6-26 08:04 编辑

一句话

关联分析(关联规则学习): 从大规模数据集中寻找物品间的隐含关系被称作 关联分析(associati analysis) 或者 关联规则学习(association rule learning)


一张图

解释一下这张图:
在关联规则Aprioir算法中,有两个很重要的概念,分别是频繁项集(frequent item sets),关联规则(associational rules),它们是用来描述隐含关系的形式。

频繁项集(frequent item sets): 经常出现在一块的物品的集合。
关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。

那么 频繁 的定义是什么呢?怎么样才算频繁呢? 度量它们的方法有很多种,这里我们来简单的介绍下支持度和可信度。

支持度: 数据集中包含该项集的记录所占的比例。例如上图中,{豆奶} 的支持度为 4/5。{豆奶, 尿布} 的支持度为 3/5。
可信度: 针对一条诸如 {尿布} -> {葡萄酒} 这样具体的关联规则来定义的。这条规则的 可信度 被定义为 支持度({尿布, 葡萄酒})/支持度({尿布}),从图中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。


举个栗子呗

还是上面的那个尿布和葡萄酒的栗子,让我们仔细的看一下它的关联规则的发现过程(Aprioir)


过程1:寻找k项频繁集


我们规定最小支持度为0.3
L1为1项频繁集,可以从图中看出它的计算过程为:


L2为2项频繁集,从L1中选择候选者(去除了小于最小支持度的数据),计算过程为:





同理可以推出L3
过程2:发现关联规则


这里举一个例子说明,买了尿布的人也会继续买葡萄酒的规则,支持度为0.6(前面已经算出),那么它的置信度计算过程为:


本文来源:CSDN








最近看过此主题的会员

rmbs杨蓉

xugj831

admin

0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号