目录
我的主页:Qingtian QT01的blog_csdn博客博客博客数据分析师领域
当前进度:第4部分[机器学习算法]
协会规则的指标和关联规则的使用方法将一次又一次地讨论。
之前,我们使用支持和信心作为APRIORI或FPGROWTH的指标。
接下来,我们将讨论支持和自信。
支持和信心的问题
基本上,我们之所以使用这两个指标的原因是因为这两个指标是相对客观的测量值,并且我们可以具有定量标准来筛选标准。
因此,如果我们问某人您喜欢哪种相关规则,那么这个更主观的规则通常会出乎意料。这是出乎意料的,会让用户感到新颖和惊讶。这就是它感兴趣的。例如,啤酒和尿布,我没想到。
第二个首选关联规则是,用户可以对其做某事是可以用于活动和动作的指标。
因为人们想成为主观,但不要以可验证的方式表达它,所以以后将支持和信心用作评估。
提出了两个指标的一年后,一个人想推翻这两个指标。如果仅使用这两个规则来过滤关联规则,则会存在一些问题。他举了两个例子
第一个例子是:他们的学校有5,000名学生,然后经过调查,其中3,000人打篮球,3,750次吃谷物,以及2,000次吃篮球和谷物。
我们将在下面获取表。
然后,现在将支持水平定为30%,置信度为60%
现在,我们获得了第一个相关规则:打篮球 - “吃谷物的相关规则:(0.4,0.667)
然后,我们会想到一个事件,如果我们促进篮球,谷物的数量将增加。实际实施它时,您会发现促销篮球谷物的销售不仅没有增加,而且减少了。
目前,我们将想播放会导致这种现象的东西。显然有这样的相关规则,然后他们发现了一个问题。我们看到,玩篮球吃谷物的人比例为2/3,不打篮球谷物的人比例为7/8。不打篮球吃谷物的人比例更高。结果,我们实际上得到了一个相关规则,那就是打篮球的人吃谷物。这样的规则会误导我们的营销方向。
第二个示例:
我们现在有3种产品,xyz
现在有8笔交易,第二笔交易是一起购买的3个。
我们选择设置2个关联规则x -》 y,x -》 z。
我们发现,对两个相关规则XY的支持为25%,这意味着8个交易中的2辆是同时购买的,而XZ为37.5%,这意味着8个交易中的3笔交易是同时购买的。当我卖出X4次时,我买了两次。购买Z 3次。
那么很明显,这两个规则是最需要的相关规则,无论XY更好还是XZ。由于XZ比XY具有更高的支持和信心,因此我们认为XZ是我想要的关联规则。
让我们回到原始数据。购买X的人中有三个出售了Z,但不购买X购买Z的人中有四个Z,所以您认为这是因为您购买了X并倾向于购买Z,或者如果您不购买X。
因此,XZ也是一个误导性的规则。 。
改进指数
因此,我们定义了支持和信心,很容易找到误导性的规则,因此我们必须再看一个。它称为改进程度的价值。这是我们统计数据中的相关系数。如果我们考虑购买的商品,我们将购买我们购买的商品,我们还需要考虑其相关系数。相关系数是AB一起出现的概率,除以单独的A或B的概率。如果此值为1,则它们是独立事件,不会彼此影响。如果大于1,则是正相关(如果您购买a,则会购买B),如果它小于1,则是一个负相关(如果您购买a,则不会购买B)。
因此,相关规则应具有三个指标:支持,信心和改进(相关系数)。只有当改进程度大于1时,支持和信心就越高,越好。不可能认为相关规则在得出相关系数之前的相关规则越高。现在,让我们计算第二个示例的改进。
只有在正相关方面,我们才需要考虑支持和信心,越高越好。否则,会出现误导性相关规则。
在这里,XY同时出现的概率为2/8,单独出现X的概率是1/2 Y单独出现的概率是2/8。改进是2
改进的含义实际上是要找到两者之间的一致性程度,而x和y的值是相同的。有2个不一致的,第三和第四,其他6个数据是一致的。因此,这是一个正相关。
对于X和Z,我们计算出大约等于0.9且小于1的结果,因此是负相关。在这种情况下,这将不是我们需要的相关规则。只有3个数据是一致的,而其余的5个是不一致的,这是不一致的。
提升的值是统计相关系数。
结合规则
通常很少提到关联规则的产生,其中大多数仅谈论频繁的项目集。实际上,协会规则的产生也非常重要,也不简单。
例如。如果我们有一个频繁的项目集,我们如何生成关联规则?
以下是几种参考的方法:
详尽的方法(Brute Law制定所有规则,简单但需要太多时间)
以下是我们经常的项目集。也就是说,支持水平已满足要求,我们现在需要解决的是信心问题。第一种方法是列出它们全部,看看它是否有信心,如果它足够,它将输出。
仅在ABCD上需要尝试很多规则。尽管此方法很简单,但需要很长时间。
由于需要生成太多规则,因此大多数软件和套房生成的结果是单项规则。
也就是说,仅产生这4个置信度。
因此,我们会发现大多数套件的右侧只会产生一个项目的关联规则。
改进策略1:
我们可以首先从项目数量中产生信心。例如,ABC的关联规则的信心水平是不够的,因此以下置信度肯定是不够的,因此无需尝试。 :
原因如下:
因为ABC - d d的信心低于我们的最低信心。因为除了先前的支持水平外,它们的置信度是ACBD支持水平。前者的支持水平必须大于或等于ABC(例如,AB和ABC,AB出现的概率绝对高于ABC出现的概率)
分母越大,信心越小,那么其他项目的信心绝对不够。
改进策略2:
我们首先对计算更少的项目产生信心。如果信心足够,那么对更多项目的信心就足够了。原理和改进策略1是相同的。
相关规则不容易生成。
协会规则的扩展虚拟产品
协会规则您还可以插入一些对象,例如虚拟项目。例如,如果我这次购买,我将添加一个购买的物品。例如,我在南区或北区购买了该产品。然后,商店将成为虚拟产品并设置关联规则。您可以得到南区通常购买的商店,以及北区通常购买的商店。我们可以将位置和商店形式连接在一起。
您还可以添加税务信用卡,现金或支票。交易中的这些东西也可以用作虚拟商品。您可以将产品规则和购买方法连接起来。
您甚至可以在一周,早上,下午和下午的那天将此信息链接到购物关系。
您可能会发现在星期三那天购买的任何商品的规则。
例如:
我们可以发现南区的商店购买了窗户清洁剂,而北区的商店则喜欢购买果汁和苏打水。
我们可以添加自己的连接规则。我们可以使协会规则改变很多。
负相关规则
不是项目名称
出现了无关的规则,例如购买A但不购买B,然后您将购买C,购买A和D不会购买E
包括此反向信息,例如
如果这样做,最常见的规则将是购买A或B,而不是购买C,因为有更多不购买的案例和更少的购买案例。如果您直接执行此操作并寻找解离规则,则结果将不令人满意。理想的方法是设定不购买某些产品的情况
不添加信息会导致每笔交易的音量变得非常大。因为产品交易不仅仅是购买它。因为大多数不购买的人都是,所以这会导致大量的不符号。
因此,只有经常购买的产品才能添加到他们的信息中,以使分销规则更理想。
因为我找到了啤酒和尿布
还提出了许多有趣的协会规则方向。我们可以找到空间数据的关联规则,多媒体数据的关联规则,关联时间序列和加权关联规则吗?
找到具有相对较高利润和相关规则的相关规则的定量关系
例如,如果A3会购买B6,请添加数量关系。
依赖网络
以下是我们的关联规则将生成的两个图,但是这两个图相对适合机器,可以直接读取数万个图形。
我们正在查看的神经网络是以下依赖性网络。
有时我们画出与长度2的关联规则图
这个依赖性网络使我们能够了解每种产品的依赖项。假设您使用此神经网络进行人工活动,我们希望拥有牺牲的产品,并利用该产品的推广来促进所有人购买。
然后,我们将寻找H产品作为牺牲的产品。由于该产品将推动购买4种产品,尽管我们没有在H产品上赚钱,但我们甚至会稍微提高其他产品的价格。我们的结果仍然是有利可图的。
通常,商店将推出牺牲品。实际上,他们的目的不是出售该产品,而是推动其他产品的销售。
因此,该网络更适合人们看到。其他两张图片更适合通过计算机查看。
总结:
今天,我们谈到了支持和信心问题。提出的解决方案改进指标。它还解释了如何从频繁的项目集生成关联规则,还解释了关联规则的派生使用。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:https://www.tgbz.cn/html/tiyuwenda/6418.html