博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
跟我一起数据挖掘(3)——谈谈支持度和置信度
阅读量:6246 次
发布时间:2019-06-22

本文共 1258 字,大约阅读时间需要 4 分钟。

支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。

该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。
如:某超市中有1000个顾客购物,其中200个顾客购买了面包(物品集A),那么面包(物品集A)的支持度为:
P(A)=20%(200/1000)。
关联规则从一个侧面揭示了事务之间的某种联系。
支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。
对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)

其中的support=30%是说,在所有的事务中同时出现A和B的概率。

那么我们要怎样设置支持度和置信度呢?
支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系
并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就
涉及到如何正确设置支持度的问题。

置信度和支持度可以由用户自己确定阙值。比如不满足50%的置信度被认为是没有用的,这个阙值可以根据需要调整。

支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。

    置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。
    示例:某销售手机的商场中,70%的手机销售中包含充电器的销售,而在所有交易中56%的销售同时包含手机和充电器。则在此例中,支持度为56%,置信度为70%。

支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。

置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。

下面可以看一个例题:

1.support((apple,banana)->cherry) = 1/7 = 14.29% (7个交易中有一个交易是同时购买了三件商品)

confidence((apple,banana)->cherry) = 1/2 = 50% (同时购买了apple 和banana的有两个交易,其中一个交易也购买了cherry,所以置信度是50%) 

2.support(banana->durian) = 4/7 = 57.14% >0.4,故满足条件 

3.confidence((apple,cherry)->durian) = 2/2 = 100%>0.8 ,故满足条件

转载地址:http://bcmia.baihongyu.com/

你可能感兴趣的文章
80端口被NT kernel & System 占用pid 4
查看>>
mat工具MemoryAnalyzer进行分析java内存溢出hprof文件
查看>>
完整性约束
查看>>
Django之restframework
查看>>
P3924 康娜的线段树
查看>>
Vue的安装和语法
查看>>
验证表单必须为数字并且只保留小数点后2位
查看>>
2-sat基础题 uvalive 3211
查看>>
Elasticsearch5.2.0部署过程的坑
查看>>
go build 不同系统下的可执行文件
查看>>
浏览器版本信息判断整理
查看>>
【我的Android进阶之旅】解决Android Studio 运行gradle命令时报错: 错误: 编码GBK的不可映射字符...
查看>>
windows 下解决 Time_Wait 和 CLOSE_WAIT 方法
查看>>
SOUI Editor使用教程
查看>>
PHP字符串的替换(preg_replace)
查看>>
责任链模式的具体应用
查看>>
Nginx安装
查看>>
Aix下查看内存命令
查看>>
[Android]JsonObject解析
查看>>
最好用的软件快速开发平台-全部源码-3800/套
查看>>