晴天qt01博客：机器学习关联规则的指标探讨及主观兴趣

我的主页：Qingtian QT01的blog_csdn博客博客博客数据分析师领域

当前进度：第4部分[机器学习算法]

协会规则的指标和关联规则的使用方法将一次又一次地讨论。

之前，我们使用支持和信心作为APRIORI或FPGROWTH的指标。

接下来，我们将讨论支持和自信。

支持和信心的问题

基本上，我们之所以使用这两个指标的原因是因为这两个指标是相对客观的测量值，并且我们可以具有定量标准来筛选标准。

因此，如果我们问某人您喜欢哪种相关规则，那么这个更主观的规则通常会出乎意料。这是出乎意料的，会让用户感到新颖和惊讶。这就是它感兴趣的。例如，啤酒和尿布，我没想到。

第二个首选关联规则是，用户可以对其做某事是可以用于活动和动作的指标。

因为人们想成为主观，但不要以可验证的方式表达它，所以以后将支持和信心用作评估。

提出了两个指标的一年后，一个人想推翻这两个指标。如果仅使用这两个规则来过滤关联规则，则会存在一些问题。他举了两个例子

第一个例子是：他们的学校有5,000名学生，然后经过调查，其中3,000人打篮球，3,750次吃谷物，以及2,000次吃篮球和谷物。

我们将在下面获取表。

然后，现在将支持水平定为30％，置信度为60％

现在，我们获得了第一个相关规则：打篮球 - “吃谷物的相关规则：（0.4，0.667）

然后，我们会想到一个事件，如果我们促进篮球，谷物的数量将增加。实际实施它时，您会发现促销篮球谷物的销售不仅没有增加，而且减少了。

目前，我们将想播放会导致这种现象的东西。显然有这样的相关规则，然后他们发现了一个问题。我们看到，玩篮球吃谷物的人比例为2/3，不打篮球谷物的人比例为7/8。不打篮球吃谷物的人比例更高。结果，我们实际上得到了一个相关规则，那就是打篮球的人吃谷物。这样的规则会误导我们的营销方向。

第二个示例：

我们现在有3种产品，xyz

现在有8笔交易，第二笔交易是一起购买的3个。

我们选择设置2个关联规则x -》 y，x -》 z。

我们发现，对两个相关规则XY的支持为25％，这意味着8个交易中的2辆是同时购买的，而XZ为37.5％，这意味着8个交易中的3笔交易是同时购买的。当我卖出X4次时，我买了两次。购买Z 3次。

那么很明显，这两个规则是最需要的相关规则，无论XY更好还是XZ。由于XZ比XY具有更高的支持和信心，因此我们认为XZ是我想要的关联规则。

让我们回到原始数据。购买X的人中有三个出售了Z，但不购买X购买Z的人中有四个Z，所以您认为这是因为您购买了X并倾向于购买Z，或者如果您不购买X。

因此，XZ也是一个误导性的规则。。

改进指数

因此，我们定义了支持和信心，很容易找到误导性的规则，因此我们必须再看一个。它称为改进程度的价值。这是我们统计数据中的相关系数。如果我们考虑购买的商品，我们将购买我们购买的商品，我们还需要考虑其相关系数。相关系数是AB一起出现的概率，除以单独的A或B的概率。如果此值为1，则它们是独立事件，不会彼此影响。如果大于1，则是正相关（如果您购买a，则会购买B），如果它小于1，则是一个负相关（如果您购买a，则不会购买B）。

因此，相关规则应具有三个指标：支持，信心和改进（相关系数）。只有当改进程度大于1时，支持和信心就越高，越好。不可能认为相关规则在得出相关系数之前的相关规则越高。现在，让我们计算第二个示例的改进。

只有在正相关方面，我们才需要考虑支持和信心，越高越好。否则，会出现误导性相关规则。

在这里，XY同时出现的概率为2/8，单独出现X的概率是1/2 Y单独出现的概率是2/8。改进是2

改进的含义实际上是要找到两者之间的一致性程度，而x和y的值是相同的。有2个不一致的，第三和第四，其他6个数据是一致的。因此，这是一个正相关。

对于X和Z，我们计算出大约等于0.9且小于1的结果，因此是负相关。在这种情况下，这将不是我们需要的相关规则。只有3个数据是一致的，而其余的5个是不一致的，这是不一致的。

提升的值是统计相关系数。

结合规则

通常很少提到关联规则的产生，其中大多数仅谈论频繁的项目集。实际上，协会规则的产生也非常重要，也不简单。

例如。如果我们有一个频繁的项目集，我们如何生成关联规则？

以下是几种参考的方法：

详尽的方法（Brute Law制定所有规则，简单但需要太多时间）

以下是我们经常的项目集。也就是说，支持水平已满足要求，我们现在需要解决的是信心问题。第一种方法是列出它们全部，看看它是否有信心，如果它足够，它将输出。

仅在ABCD上需要尝试很多规则。尽管此方法很简单，但需要很长时间。

由于需要生成太多规则，因此大多数软件和套房生成的结果是单项规则。

也就是说，仅产生这4个置信度。

因此，我们会发现大多数套件的右侧只会产生一个项目的关联规则。

改进策略1：

我们可以首先从项目数量中产生信心。例如，ABC的关联规则的信心水平是不够的，因此以下置信度肯定是不够的，因此无需尝试。：

原因如下：

因为ABC - d d的信心低于我们的最低信心。因为除了先前的支持水平外，它们的置信度是ACBD支持水平。前者的支持水平必须大于或等于ABC（例如，AB和ABC，AB出现的概率绝对高于ABC出现的概率）

分母越大，信心越小，那么其他项目的信心绝对不够。

改进策略2：

我们首先对计算更少的项目产生信心。如果信心足够，那么对更多项目的信心就足够了。原理和改进策略1是相同的。

晴天qt01博客：机器学习关联规则的指标探讨及主观兴趣

相关推荐