虚拟变量陷阱是指一般在引入
虚拟变量时要求如果有m个定性变量,在
模型中引入m-1个虚拟变量。否则,如果引入m个
虚拟变量,就会导致模型解释变量间出现完全共线性的情况。我们一般称由于引入
虚拟变量个数与定性因素个数相同出现的模型无法估计的问题,称为“虚拟变量陷阱”。
自变量中包含了过多的虚拟变量造成的错误;当模型中既有整体截距又对每一组都设有一个虚拟变量时,该陷阱就产生了。或者说,由于引入虚拟变量带来的完全共线性现象就是虚拟变量陷阱。
比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向
模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性)而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是:1(大学)1(中学)1(小学)D1=0(非大学)D2=0(非中学)D3=0(非小学)所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,
模型引入m个虚拟变量,造成了虚拟变量之间产生完全
多重共线性,无法估计回归参数。在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。
若对两个相互排斥的属性 “居民属性”,仍然 引入个虚拟变量,则有则模型为对任一家庭都有:即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性。