如何理解和使用多元线性回归分析?

在实际中,对因变量的影响往往有两个或两个以上的自变量。例如:影响产品单位成本的变量不仅有产量,还包括原材料价格、劳动力价格,劳动效率及废品率等因素。对建立这种具有多变量模型的分析,就是多元回归分析。

在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。多元线性回归是一元线性回归的扩展,其基本原理及方法与一元线性回归分析类似。变量越多,计算过程越是复杂,此篇着重原理介绍,计算可由统计软件代为完成。

多元线性回归
回归模型
多元线性回归模型与一元线性回归模型类似,由几部分组成:




回归方程




回归系数
代入样本值,可以求得回归系数a,b,…,g的点估计值(不同样本求得的值不同),从而得到样本多元线性回归方程:




回归模型方差


随机变量的方差,也就是回归模型的方差,由下图的剩余变差引起。该值可以通过样本数据的离散程度来估计,回顾一元线性回归分析,如下图:


计算式如下:



回归系数求取
与一元回归系数的求取一样,多元线性回归系数的估计值仍然采用最小二乘法原理求得,即将观察得到的样本数据作为已知,带入样本回归方程中,然后分别对a,b,…,g求偏导数(回顾:最小二乘法),从而得到它们的点估计值。其数值可以使用Excel、SPSS的统计软件计算得到。


相关性检验
一元(简单线性)回归方程的假设检验中介绍了,回归方程的相关性检验有三种方式,它们的作用相同,只需选取其中一种检验即可(相关系数的检验、回归方程的检验、回归系数的检验)。三种检验使用的统计量与检验原则与一元线性回归的相关性检验相同,这里不在赘述。

需要着重介绍多元的相关系数的检验
在多元回归中,决定系数(R平方)又称为拟合优度或者多元决定系数(Multiple coefficient of determination),其计算公式与一元回归相同,即


可参考上文变差图。

R平方的数值大小可以说明所建立模型与实际数据的拟合程度好坏,其值越接近1,拟合程度越高。一元回归中,决定系数的平方根即为相关系数,表示两个变量的相关程度,可正可负(正相关或负相关);多元回归中,关注正平方根,称为复相关系数,表示因变量与作为一个整体的所有自变量的相关程度。

决定系数(R平方)又称为拟合优度,因为在样本容量相同和自变量个数相同时,能够说明不同模型的拟合情况好坏。在样本容量不同或者自变量个数不同时,用决定系数比较拟合程度需要慎重,因为它们对决定系数有很大影响(影响原因回归计算公式变化)。

为了对包含不同自变量个数的方程进行拟合程度比较,需要对R平方进行修正(解除自变量个数影响),称为修正的多元决定系数(Adjusted multiple coefficient of determination),公式如下:


可回顾上文变差图帮助理解。

区间估计与预测
与一元回归分析一样,作完上面的分析后,1、可以对回归系数(a,b,…,g)进行区间估计;2、对特定自变量通过回归方程计算得到的因变量值进行区间估计。


随着自变量个数的增加,回归分析的计算量也是非常大,所以需要借助分析软件帮助计算。下篇用具体案例,通过Excel分析工具计算,分析计算结果,以这样的方式帮助大家掌握一元(简单线性)回归分析和多元线性回归分析。


线性回归的步骤不论是一元还是多元相同,步骤如下:

1、散点图判断变量关系(简单线性);
2、求相关系数及线性验证;
3、求回归系数,建立回归方程;
4、回归方程检验;
5、参数的区间估计;
6、预测;

范例分析
王某等人承包了某快递公司在某地的快递业务,一段时间后发现:有时候承接工作量大,完不成快递任务;有时候工作量不足,员工等待。为了制定最佳的工作计划表,王某希望估计快递员每天的工作时间(工资计件,没有偷懒现象),以便决定每天承接的快递数量。王某分析,快递员每天工作的时间与送货距离和送货次数相关。为此,他收集了由10项送货任务组成的简单随机样本数据,并根据这些数据建立二元线性回归方程。数据如下表:




项目分析
研究的目的是预测快递员运送任务所需要的时间,所以设时间为因变量;距离与次数为自变量。本题直接使用Excel计算结果。

解:1、相关次数;由于是二元回归分析,所以不做散点图,直接用回归系数判别因变量(时间)与自变量总体(距离与次数)之间的相关关系。Excel计算结果:


复相关系数R为0.9383,说明因变量时间与作为一个整体的所有自变量(距离和次数)高度线性相关。

2、回归系数及回归方程


通过Excel计算结果,可以得到回归系数及回归方程:


意义:回归系数0.042表示在固定次数的条件下,送货距离每增加1公里,行驶的时间平均增加0.042小时;同理,回归系数0.573表示在送货距离固定的条件下,送货次数每增加1次,送货的时间平均增加0.573小时。本例中,截距-0.01没有实际意义,只起调节数值的作用。

3、回归方程的检验

回归方程的检验有三种方法(回归方程显著性检验,回归系数显著性检验和相关系数显著性检验),效果相同,选择其一检验即可。Excel给出的是回归方程的显著性检验结果:


Significance F=0.000591表示统计量F=25.77422的概率值,通过与显著水平(设定为0.05)的比较,表示F值落在拒绝域,所以结论与上相同,即线性回归方程式显著的。

4、区间估计


从上表可知,在95%置信度条件下,回归系数b1的置信区间为(0.025,0.059),b2的置信区间为(0.069,1.077)。


5、预测
某个快递员某天的任务是快递3件货,最优送货路线总长为120公里,预测送货时间,并得到95%的时间区间。
通过回归方程可得预测的送货时间为6.749小时:


95%置信度下,送货时间的置信区间为:


Excei计算结果中有Se的值,但是没有包含t统计量:


t统计量值用公式:=T.INV.2T(0.05,7)得到2.365,所以该题中送货时间区间为:
(6.749-2.365*0.639,6.749+2.365*0.639)
(5.24,8.26)
所以该条件下送货时间区间为5.24小时~8.26小时。

编辑于 2018-11-12 21:39