在关联模式中的support如何理解

在SPADE或Eclat中,算到最后的support 会是 0.5 到1.0的数字。
定义是,发生此事务(或序列)的数量,占总事务(数量)的比例。

例如 {<D> <F> <A> } support = 0.5,可以理解成,依序购买 D, F, A三个产品的机率,是在所有购买行为(或序列)中,发生机率为 50%吗?如果是这样,那么{A} supp=1.0, {D} supp=0.5,又如何理解?是每次都会买A,一般的机会买D吗?而且所有的support加总不为1。
我有疑惑的的地方是,在18种被辨识出来的消费行为中,买了A,不代表后面不在买东西,不应该被独立看。

cador - Life is short , you need R!

赞同来自: GreenEric 邓培

1、是所有历史事务,没有最小支持度的限制 2、不是event,而是同属一个用户的序列,这里的<{A}>序列只计算一次

cador - Life is short , you need R!

赞同来自: GreenEric

这里的support是基于历史数据的统计,反应的是组合在所有历史事务中出现的概率。 比如项集{A}的支持度为1.0,即是指历史所有事务均包含该项集。 另外,18种是通过历史数据得出的满足最小支持度的频繁序列,是规律,属于序列模式挖掘的范畴。序列<{A}>的支持度为1,说明历史中所有用户都购买了A,而序列<{D},{B},{A}>的支持度为0.5表示,历史中有一半的用户先购买了D,接着购买了B,最后购买了A。但是不排除,在购买B的时候仍然买了D和A。 下面回答为什么所有support加总不为1的问题。 这里的支持度可以理解为概率,但是这个概率的的分母是历史的发生了购买行为的用户数量,而分子是满足序列行为的用户数量,OK,接着,由于这18种序列都是相互包含的,比如序列<{A}>和<{B}>对应的用户完全可能有同一个人,因此,其加和的概率应该是大于等于1的。  

GreenEric - 江苏大叔

赞同来自:

“项集{A}的支持度为1.0,即是指历史所有事务均包含该项集。”这里所谓历史所有事务,应该是指“满足最小支持度的历史事件”,对吧? 我另外一个问题描述的不精准,重新措辞:观察到某甲{<A>},某甲{<A>,<B>},这两个应该要被视为同一个event吧?

要回复问题请先登录注册