混合线性模型是20世纪80年代初针对统计资料的非独立性而发展起来的。由于该模型的理论起源较多,根据所从事的领域、模型用途,又可称为多水平模型(Multilevel,MLM)、随机系数模型(Random Coefficients,RCM)、
等级线性模型(Hierarchical Linear,HLM)等。甚至和广义估计方程也有很大的交叉。这种模型充分考虑到数据聚集性的问题,可以在数据存在聚集性的时候对影响因素进行正确的估计和假设检验。不仅如此,它还可以对变异的影响因素加以分析,即哪些因素导致了数据间聚集性的出现,哪些又会导致个体间变异增大。由于该模型成功地解决了长期困扰统计学界的数据聚集性问题,20年来已经得到了飞速的发展,也成为SPSS等权威统计软件的标准统计分析方法之一。
在传统的
线性模型(y=xb+e)中,除X与Y之间的线性关系外,对反应变量Y还有三个假定:①
正态性,即Y来自正态分布总体;②
独立性,Y的不同观察值之间的相关系数为零;③方差齐性,各Y值的方差相等。但在实际研究中,经常会遇到一些资料,它们并不能完全满足上述三个条件。例如,当Y为分类反应变量时,如性别分为男、女,婚姻状态为已婚、未婚,学生成绩是及格、不及格等,不能满足条件①。当Y具有群体特性时,如在抽样调查中,被调查者会来自不同的城市、不同的学校,这就形成一个层次结构,高层为城市、中层为学校、低层为学生。显然,同一城市或同一学校的学生各方面的特征应当更加相似。也就是基本的观察单位聚集在更高层次的不同单位中,如同一城市的学生数据具有相关性,不能满足条件②。当自变量X具有随机误差时,这种误差会传递给Y,使得Y不能满足条件③。
如果我们对不同的群体分别建立各自的回归模型,当群体数较少,群体内样本容量较大,传统的分析方法可能是有效的。或者,我们的兴趣仅在于对这些群体分别做一些统计推断时,也适合用这种方法。但是如果我们把这些群体看成是从总体中抽样来的一个样本(例如
多阶段抽样和重复测度数据),并想分析不同群体之间的总体差异,那么简单地使用传统的统计方法是不够的。同样,如果一些群体包含的样本容量较少,对这些群体做出的推断也不可靠。因此,我们需要把这些群体看成是从总体抽样来的样本,并使用样本总体的信息来进行推断。
本文所讨论的混合线性模型既保留了传统
线性模型中的
正态性假定条件,又对独立性和方差齐性不作要求,从而扩大了传统线性模型的适用范围。
式中的Y表示反应变量的测量值向量,X为固定效应自变量的设计矩阵, 是与X对应的固定效应参数向量, 为剩余误差向量。 为在X条件下的Y的平均值向量,即 。 假定为独立、等方差及均值为0的正态分布,即 用
最小二乘法求参数 的估计值B。
式中Z为随机效应变量构造的设计矩阵,其构成方式与X相同。 为随机效应参数向量,服从均值向量为0、方差协方差矩阵为G的正态分布,表示为 。 为随机误差向量,放宽了对 的限制条件,其元素不必为
独立同分布,即对E没有 及 的假定。用符号表示随机误差向量 ,不要求 的方差、
协方差矩阵R的主对角元素为 、非主对角元素为0。同时假定Cov(G,R)=0,即G与R间无相关关系。这时Y的方差、协方差矩阵变为: