[译]回归分析的基本假设

点击量:177

原文地址:《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》

引言

回归分析标志着预测建模的第一步.毫无疑问,它很容易实现,而且它的参数不会造成任何混乱,但是仅仅运行一行代码并不能解决问题.不只是看R^2MSE,回归能说明更多的问题.

为了模型效果的提升,必须首先了解回归假设以及当假设被违反时如何修正它们.

回归假设

回归是一种参数方法,参数意味着模型需要为了分析需求对数据做出一定的假设.由此,当数据不再满足时,它很难得出较好的结果.

线性性 可加性

假设因变量为Y,自变量为X_1X_2,则回归分析的默认假设为Y=b+a_1X_1+a_2X_2+\epsilon.
线性性:X_1每变动一个单位,Y相应变动a_1个单位,与X_1的绝对数值大小无关.
可加性:X_1Y的影响是独立于其他自变量(如X_2)的.

影响

模型将无法很好的描述变量之间的关系,极有可能导致很大的泛化误差.

检查方法

通过查看其残差值vs拟合值的图,能够清晰地表示出数据中的多项式.相较于图一(残差随机分布),图二的残差明显呈现了某种二次型趋势,说明回归模型没有抓住数据的某些非线性特征.

解决办法

通过对$X$做非线性变换改善,如\log(X),\sqrt X or X^2.

无自相关性

残差项之间不应该相关.违反这一原则的被称为自相关性.

影响

通常发生在时间序列里面,后一项依赖于前一项.当自相关性发生的时候,我们预测值的标准差往往比真实的小,进而会导致置信区间变窄.同时,较低的标准差会导致P值较小,这会让我们得出错误的统计显著的参数.

例如,设没有自相关性的情况下,自变量X的系数为15.02,而标准差为2.08。假设同一样本是有自相关性的,测得的标准差可能会只有1.20,所以置信区间也会从(12.94,17.10)缩小到(13.82,16.22).

检查办法

通过Durbin – Watson (DW)统计公式计算.

DW=\frac{\sum_{t=2}^T(e_t-e_{t-1})^2}{\sum_{t=1}^Te_t^2}

该统计量的值落在(0,4)内,DW=2意味着没有自相关性,0<DW<2表明残差间有正的相关性,2<DW<4表明残差间有负的相关性.

经验上,如果DW<1或DW>3,则自相关性已经达到了需要示警的水平.如果事先给定了检验的方向(正/负相关性)和置信度\alpha,也可以根据假设检验的思路进行对应计算.

独立性

自变量之间应该相互独立,违反这一原则被称为多重共线性.

影响

违反会导致模型不能正确找出自变量之间的关系.同时会导致标准差偏高,因此会导致置信区间变宽以至于无法对参数进行精确估计.

检查办法

首先,可以通过观察自变量的散点图(Scatter Plot)来进行初步判断.

然后,针对可能存在多重共线性性的变量,我们观察其方差膨胀系数(VIF–Variance Inflation Factor).
假设回归模型为:
Y=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots+\beta_k X_k + \varepsilon
对于变量X_j,可证得,其估计系数\beta_j的方差为:

\hat{var}(\hat{\beta}_j)=\frac{s^2}{(n-1)\hat{var}(X_j)}\cdot\frac{1}{1-R_j^2}

其中其中唯一与其它自变量有关的值是R^2_jR^2_jX_j关于其它自变量回归的残差:

X_j=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots + \beta_{j-1} X_{j-1} + \beta_{j+1} X_{j+1} +\cdots + \beta_k X_k + \varepsilon

\frac{1}{1-R_j^2}便称作VIF,若VIF<3,说明该变量基本不存在多重共线性性问题,若VIF>10,说明问题比较严重.

误差项的方差应该是常数

这一现象被称为同方差性,违反的则被称为异方差性.

影响

通常异方差由异常值导致,在回归模型中,这些异常值可能会被给予过大的权重,以至于影响模型的准确性,同时会导致置信区间相较于正常情况不确定地偏大或者偏小.

检查办法

可以使用残差VS拟合值,如果异方差存在,会在图中看到明显的漏斗状,观察标准化后的残差VS估计值图,如果异方差存在,则图中应该可以看到明显的趋势性.同时也可以使用Breusch-Pagan / Cook–Weisberg test.

残差VS拟合值

解决办法

Y进行变换,如\log(Y) or \sqrt Y,也可以使用加权最小二乘法来解决这个问题.

误差项应该是高斯分布

影响

如果违反了这一假设,置信区间也会不确定地变大或者变小.

检查办法

可以通过查看QQ图(如下),如果图中的散点呈直线状表示数据为高斯分布,否则为非高斯分布,还有另外的方法如通过Kolmogorov-Smirnov test, Shapiro-Wilk test进行检查.

解决办法

XY的非线性变换会改善违例情况.


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

1 thought on “[译]回归分析的基本假设

发表评论

电子邮件地址不会被公开。 必填项已用*标注