内生性,是模型中的一个或多个
解释变量与
随机扰动项相关,解决方法有工具变量估计、
工具变量的优劣等。
导致原因
1.遗漏变量,且遗漏变量与引入模型的其他变量相关。
2.
解释变量和
被解释变量相互作用,相互影响,互为因果。
3.自我选择偏误。
4.样本选择偏误。
解决方法
工具变量:假定我们有一个可观测到的变量Z,它满足两个假定
(1):Z与U不相关,即与Cov(Z,U)=0;
(2):Z与X相关,即与Cov(Z,X)不等于0;
我们则称Z是X的工具变量(instrumental variable 简称IV)
举例:以双变量模型为例
Y=Q+WX+U;
其中X与U相关,因而OLS估计有偏,有X的工具变量Z,
于是有Cov(Z,Y)=Cov(Z,Q+WX+U)
=Cov(Z,WX)+Cov(Z,U)(Q为常数)
=WCov(Z,X)
所以有W=Cov(Z,Y)/Cov(Z,X)
工具变量的优劣
(1):Z与U不相关,即与Cov(Z,U)=0;
(2):Z与X相关,即与Cov(Z,X)不等于0;
相关性越高,则越好
Z与U相关性低,Z与X相关性高,这样的工具变量被称为好工具变量,反之则称为劣工具变量。
好的工具变量的识别
(1):Z与U不相关,即与Cov(Z,U)=0;
由于U无法观察,因而难以用正式的工具进行测量,通常由
经济理论来使人们相信。
(2):Z与X相关,即与Cov(Z,X)不等于0;
将X对Z回归即可,看看X的系数是否显著异于零?
IV估计量:C1=Cov(Z,Y)/Cov(Z,X)
而OLS估计量是:C2=Cov(X,Y)/Cov(X,X)
(1)因此,Z=X时,两者将完全一致,换句话说,当X外生时,它可用做自身的IV,IV估计量便等同于OLS估计量。
(2)若Z与X不相关,Cov(Z,X)等于0,则IV法无法给出估计量。
IV与OLS的取舍
(1)尽管当Z与U不相关,而Z与X存在着或正或负的相关时,IV是一致的,但当Z与X只是
弱相关时IV估计值的
标准误可能很大,Z与U之间的相关可能产生更加严重的后果:即使Z与U只是适度相关,IV估计的渐进偏误也可能很大。也即是说,当
解释变量外生时,IV与OLS估计都是一致的,但IV估计不如OLS有效。
(2)所以,当内生性程度不严重或者好的工具变量找不到时,还不如用OLS。反之,当内生性程度严重时,就一定要想办法解决,否则,OLS估计就是不可接受的,当然,差的IV同样是不可接受的。
其它解决办法
(1)
代理变量:某变量无法直接观测,而用其它变量替代。
检验
基本思想:直接比较OLS和IV估计值,若所有变量都是外生的,则OLS和IV估计都是一致的,若明显不同,则我们就断定解释变量有内生性。
一个问题:工具变量本身的外生性如何检测?
对待态度
(1)需要重点考虑的问题之一;
(2)最好的
收集数据之前就加以考虑,尤其是准备获取
一手数据的情况下。如何考虑?应用经济理论。