蒋多多- 研究综述:机器学习与工具变量(IV) by 陈硕和王宣艺 论文大焖锅-论文大焖锅

蒋多多| 研究综述:机器学习与工具变量(IV) by 陈硕和王宣艺 论文大焖锅-论文大焖锅

蒋多多
注:本推送内容来自陈硕与王宣艺,2018,《机器学习在社会科学中的应用:回顾及展望》,复旦大学经济学院工作论文。我们将陆续推送该文主要内容,这次推送的是当工具变量方法遇到机器学习。
Linda Scott的任性嗓音,本曲来自2001年美国彩色故事片《穆赫兰道》原声音乐集
注:机器学习在工具变量方法中的应用本质上仍然属于预测部分,而并不涉及反事实的估计。出于内容的相关性,我们将这部分放在因果推论部分论述。
这是论文大焖锅的一篇推送:
除了双重差分及断点回归方法之外,应用微观计量经济学者也经常使用工具变量方法 (Instrumental Variable Approach) 来识别因果关系。和以上两种方法依赖于寻找同质样本的思路不同,工具变量方法试图寻找外生变量来克服异质性与样本是否被介入间的关系。实际操作采用两阶段最小二乘法 (Two-stage Least Squares, 2SLS) 实现。在第一阶段通过OLS线性估计用外生工具变量“替代”内生解释变量 (是否介入或者介入的程度) ,从而获得内生解释变量的预测值。该预测值的方差都是由于外生工具变量所解释,与异质性之间的关系便不再存在。在第二步中,用解释变量预测值和被解释变量回归,获得解释变量的一致性估计系数。 我们在这里仍然采用教育对收入作用来展示工具变量方法的操作方法。该例子来自Angrist and Krueger (1991) ,作者试图估计教育时长对工资的作用,估计公式如下:

上文提到,不管是否上大学还是大学教育时间长短均和个体异质性有关系,这就意味着上述因果关系中存在内生性问题:Cov(edu, u)≠0。这导致研究者无法区分观察到的收入差异到底来自于教育还是个体异质性。为了应对该内生性问题,两位作者采用工具变量方法,他们认为出生时间z是一个很好的工具变量。对该变量的评价需要了解一下美国的义务教育制度:义务教育法律规定学童在年满6周岁时要入学读书,年满16周岁后才可以离开学校。 法律规定的“年满6周岁”指的是当年1月1日年满6周岁。该一刀切的规定会导致出生月份不同的学童实际接收教育时长存在差别。举一个极端例子,一个12月31日出生的学童,在6年后的1月1日时恰好6周岁多一天。按照法律规定,该学童符合入学条件。而另一个在1月2日出生的学童在入学日时却只有5周岁364天。虽然之后1天只差,但依然不能入学,必须等到下一年1月1日。那时他已经6周岁364天。由于离校都是16周岁的那天,这会导致1月2日出生的学童比12月31日出生的学童少接受364天教育。当然大部分学童受到的教育时常都小于该极端值。可以看出,上述制度设置所导致的教育时长差异是由于出生月份导致,如果我们假设能力和出生月份无关的话,那么该变量就是教育时常的有效工具变量。可用公式表示为:

满足上述条件之后,研究者便可以用两阶段最小二乘法估计教育对收入的影响作用。在实际操作上,先将教育edu与出生月份进行回归(第一阶段):

该阶段的目标是获得教育的预测值:

接下来,把作为解释变量,工资wage作为解释变量,再进行回归(第二阶段):

最终得到的系数估计,该系数是教育作用的一致性估计值。
工具变量方法的实施关键在于第一阶段,不光需要给出证据证明工作变量具有外生性,还要通过统计指标说明该工具变量和内生解释变量之间存在足够强的相关关系。在这篇研究中,作者给出一些证据比如Z估计值的显著性来说明出生季节的确和教育时长之间存在相关关系,但后续许多学者认为该相关关系并不强以至于影响最终的估计结果 (Bound et al., 1995; Staiger and Stock, 1997; Card, 1999)。 该问题本质上仍然是外生Z对内生edu的预测能力,而这正是机器学习最擅长的地方(Varian, 2016; Mullainathan and Spiess, 2017; Athey, 2018)。因此,工具变量方法的第一阶段完全可以采用机器学习技术预测内生解释变量。这一领域已经积累起了较多的理论计量文献:有些学者采用正则化回归,比如LASSO和Ridge等方法来构建第一阶段的估计(Belloni et al., 2012; Carrasco, 2012; Hansen and Kozbur, 2014);另一些学者则采用神经网络等非线性方法来进行第一阶段的估计(Hartford et al., 2016)。
广受欢迎的微信公共帐号“论文大焖锅”每日推送经济学、政治学、社会学及自然科学期刊最新内容。本帐号由复旦大学经济学院陈硕教授及其团队负责。欢迎媒体及学界与我们展开内容合作,联系邮箱paperexpress@sina.cn。查看以前推送:点“论文大焖锅”并选择“查看历史消息”。搜寻帐号:PaperExpress或扫描二维码如下: