我的位置：首页 › 综合讨论 › 薏米杂谈 › 一句话+一张图——说清楚Aprioir关联规则算法 ...

一句话+一张图——说清楚Aprioir关联规则算法

复制链接 | 收藏本帖

4410

: 江湖人称潇洒哥数据达人Lv4

发表于2018-6-26 08:00

楼主

本帖最后由江湖人称潇洒哥于 2018-6-26 08:04 编辑

一句话

关联分析（关联规则学习): 从大规模数据集中寻找物品间的隐含关系被称作关联分析(associati analysis) 或者关联规则学习（association rule learning）

一张图

解释一下这张图：
在关联规则Aprioir算法中，有两个很重要的概念，分别是频繁项集（frequent item sets），关联规则（associational rules），它们是用来描述隐含关系的形式。

频繁项集（frequent item sets）: 经常出现在一块的物品的集合。
关联规则（associational rules）: 暗示两种物品之间可能存在很强的关系。

那么频繁的定义是什么呢？怎么样才算频繁呢？度量它们的方法有很多种，这里我们来简单的介绍下支持度和可信度。

支持度: 数据集中包含该项集的记录所占的比例。例如上图中，{豆奶} 的支持度为 4/5。{豆奶, 尿布} 的支持度为 3/5。
可信度: 针对一条诸如 {尿布} -> {葡萄酒} 这样具体的关联规则来定义的。这条规则的可信度被定义为支持度({尿布, 葡萄酒})/支持度({尿布})，从图中可以看出支持度({尿布, 葡萄酒}) = 3/5，支持度({尿布}) = 4/5，所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。

举个栗子呗

还是上面的那个尿布和葡萄酒的栗子，让我们仔细的看一下它的关联规则的发现过程（Aprioir）

过程1：寻找k项频繁集

我们规定最小支持度为0.3
L1为1项频繁集，可以从图中看出它的计算过程为：

L2为2项频繁集，从L1中选择候选者（去除了小于最小支持度的数据），计算过程为：

同理可以推出L3
过程2：发现关联规则

这里举一个例子说明，买了尿布的人也会继续买葡萄酒的规则，支持度为0.6（前面已经算出），那么它的置信度计算过程为：

本文来源：CSDN

最近看过此主题的会员

QQ空间微信

0个回答

只看楼主

登录后可回答问题，请登录或注册

技术咖，随便秀！

我要发帖