RSS值越低,模型预测值越好。或者我们可以这样说——如果回归线使RSS值最小化,那么回归线就是最佳拟合线。
但这其中有一个缺陷——RSS是一个尺度变量统计。由于RSS是实际值和预测值的平方差之和,因此该值取决于目标变量的大小。
例子:
假设你的目标变量是销售产品所产生的收入。残差取决于目标的大小。如果收入大小以“1百卢比”为单位计算的话(即目标可能是1、2、3等),那么我们可能会得到0.54左右的RSS(假设)。
但是如果收入目标变量以“卢比”为单位(即目标值为100、200、300等),那么我们可能会得到一个更大的RSS,即5400。即使数据没有变化,RSS的值也会随着目标的大小而变化。这使得很难判断什么是好的RSS值。
那么,我们能想出一个更好的尺度不变的统计量吗?这就是R方出现的地方。
R方统计量
R方统计量是一种尺度不变的统计量,它给出了线性回归模型解释的目标变量的变化比例。
这可能看起来有点复杂,所以让我在这里把它分解。为了确定模型解释的目标变化比例,我们需要首先确定以下内容-
平方和(TSS)
目标变量的总变化是实际值与其平均值之差的平方和。
TSS或总平方和给出了Y的总变化量。我们可以看到它与Y的方差非常相似。虽然方差是实际值和数据点之间差的平方和的平均值,TSS是平方和的总和。
既然我们知道了目标变量的总变化量,我们如何确定模型解释的这种变化的比例?我们回到RSS。
残差平方和(RSS)
正如我们前面讨论的,RSS给出了实际点到回归线距离的总平方。残差,我们可以说是回归线没有捕捉到的距离。
因此,RSS作为一个整体给了我们目标变量中没有被我们的模型解释的变化。
R方
现在,如果TSS给出Y的总变化量,RSS给出不被X解释的Y的变化量,那么TSS-RSS给出了Y的变化,并且这部分变化是由我们的模型解释的!我们可以简单地再除以TSS,得到由模型解释的Y中的变化比例。这是我们的R方统计量!
R方=(TSS-RSS)/TSS
=解释变化/总变化
=1–未解释的变化/总变化
因此,R方给出了目标变量的可变性程度,由模型或自变量解释。如果该值为0.7,则意味着自变量解释了目标变量中70%的变化。
R方始终介于0和1之间。R方越高,说明模型解释的变化越多,反之亦然。
如果RSS值很低,这意味着回归线非常接近实际点。这意味着自变量解释了目标变量的大部分变化。在这种情况下,我们会有一个非常高的R方值。
相反,如果RSS值非常高,则意味着回归线远离实际点。因此,自变量无法解释目标变量中的大部分变量。这会给我们一个很低的R方值。
所以,这就解释了为什么R方值给出了目标变量的变化量。
关于R方统计量的问题
R方统计并不完美。事实上,它有一个主要缺陷。不管我们在回归模型中添加多少变量,它的值永远不会减少。
也就是说,即使我们在数据中添加冗余变量,R方的值也不会减少。它要么保持不变,要么随着新的自变量的增加而增加。
这显然没有意义,因为有些自变量在确定目标变量时可能没有用处。调整R方处理了这个问题。
调整R方统计量
调整R方考虑了用于预测目标变量的自变量数量。在这样做的时候,我们可以确定在模型中添加新的变量是否会增加模型的拟合度。
让我们看看调整R方的公式,以便更好地理解它的工作原理。