환영회식사

환영회식사

2012년 7월 15일 일요일

[CJE-July 2012] 차이들의 차이 (Differences in Differences)


 오늘 제가 올릴 글에서는 Differences-In-Differences (DID)라는 실증 분석 기법에 대해 간단하게 써보려 합니다. (각주1)

 DID는 어떤 정책이 특정 집단, 특정 기간에 시행 된 상황에서 그 정책이 경제에 미치는 순수한 영향만을 뽑아내고자 할 때 사용되는 기법입니다. 얼핏보면 '그냥 특정 정책이 시행되었을 때 시행되기 이전과 이후의 결과값(outcome)만을 비교해 보면 되는 것 아니야?'라고 생각할 수 있습니다. 하지만 이렇게 단순히 정책 시행의 이전과 이후의 결과값만 비교하면 정책을 시행함으로서 달라지는 효과 뿐 아니라 정책이외의 다른 외생적 영향이 결과값에 미치는 효과도 섞여있기 때문에 정책의 '순수한' 효과만을 뽑아내지 못하겠죠. 그렇기 때문에 사용되는 기법 중 하나가 DID입니다. DID는 준실험적(quasi-experimental) 상황, 곧 정부의 특정 정책으로 인해 일정한 시점, 지역에 대해 마치 사회실험을 행한 것과 같은 상황에서 그 정책의 효과를 보는데 유용한 기법입니다.

 예시를 하나 보겠습니다. (각주2) 1973년 한국의 고등학교 입시 정책에 변화가 생깁니다. 종전에는 인문계 고등학교에 대해서는 시험을 쳐 시험 성적에 따라 입학이 결정되었는데 1973년부터 특정지역에 대해 소위 '뺑뺑이'가 도입이 됩니다. 시험 성적이 아니라 집-학교의 거리등을 고려한 추첨을 통해 입학할 고등학교가 결정이 되는거죠. 반면 실업계 고등학교는 1973년 이전/이후 모두 뺑뺑이로 학생들을 뽑았습니다. 이러한 고등학교 입시정책의 변화가 학생들의 향후 소득에 변화를 가지고 왔는가를 연구자가 알고자 한다고 합시다.

1973년을 기준으로 이전에 시험을 통해 인문계 고등학교에 진학한 학생들과 이후에 뺑뺑이를 통해 인문계 고등학교에 진학한 학생들의 소득을 비교한다면 정책으로 인한 효과 (treatment effect)뿐 아니라 시간이 변화하면서 오는 외생적 효과 (time effect)들도 결과에 영향을 미칠 겁니다. 단순히 입시정책의 변화 뿐 아니라 시간이 흐르면서 경제가 성장하니까, 또는 경기 변동으로 인해, 기타 다른 여러 요인들로 인해 소득에 영향을 미칠 수 있는거니까요.

 그래서 '순수한' 입시정책의 변화만을 보기 위해 우리는 정책에 영향을 받는 대상(처리군: treatment group. 곧 여기서는 인문계 학생들) 뿐 아니라 시간이 흘러도 정책이 변화하지 않는 대상(통제군: control group. 여기서는 실업계 학생들) 을 도입해야 합니다. 아래의 표는 (정책이 시행된) 1973년 이전과 이후를 기준으로 인문계/실업계 학생들의 소득을 나타내는 것입니다.


인문계(Treatment group)
실업계(Control group)
정책 시행 이전 (Before)
a
c
정책 시행 이후 (After)
b
d


앞서 설명드렸듯 정책 시행 이후와 이전의 인문계 학생들의 소득 차(b-a)만을 관찰하면 여기에는 정책으로 인한 효과 뿐 아니라 시간이 흐르는데 따라 발생하는 정책 이외의 외생적 효과들까지 영향을 미치게 될 것입니다. 반면 통제군인 실업계 학생들의 정책시행 이후와 이전 소득 차(d-c)를 보면 시간의 흐름에 의한 외생적 변화만을 반영하겠지요. 실업계 학생들에 대해서는 정책에 변화가 없었으니까. 그렇다면 (b-a)-(d-c)를 한다면 우리는 시간의 흐름에 따른 외생적 변화를 제한, 오로지 입시정책의 변화가 소득에 미치는 순수한 효과만을 뽑아낼 수 있을 것입니다. 이것이 DID라는 기법의 핵심입니다.

회귀식을 쓰면 다음과 같습니다.


T  는 시간의 흐름을 반영하는 더미변수(dummy variable)로서 정책 이후의 시점을 1, 이전 시점에 대해 0을 반영합니다. SA는 그룹의 차이를 반영하는 더미변수로 처리군(인문계 학생)에 대해 1, 통제군(실업계 학생)에 대해 0을 반영합니다.
 이렇게 했을 때 각 베타값들이 반영하는 효과를 요약하면 다음과 같습니다.










 다만 여기서 주의해야 할 것은 시간의 흐름에 따르는 외생적 효과(time effect)가 통제군과 처리군 모두 같다고 가정해야 한다는 점입니다. 두 개가 다르다면 정책의 변화가 미치는 순수한 효과를 뽑아내는데 어려움이 있겠지요.

 DID라는 기법을 접하면서 느꼈던 것은 특정 정책이 시행되었을 때 사회에 어떠한 경제적 영향을 미쳤는지 사후적으로 검토하는데 유용한 툴이 될 수 있으리라는 점이었습니다. 예컨대 제가 떠올렸던 상황은 흡연이 아동에 미치는 영향에 관한 것이었습니다. 흡연률 변화가 아동의 소득에 어떤 영향을 미치는가라고 묻는다면 일단은 ‘흡연률이 높아지면 아동에게 나쁜 영향을, 낮아지면 좋은 영향을’ 미칠 것이라 답할 것입니다. 하지만 ‘실증적’으로 이를 입증하기란 쉽지 않지요. 시간의 흐름에 따라 흡연률에 변화가 생겼을 때 아동의 소득, 교육수준 등을 비교한다면 여기에는 부모의 흡연 뿐 아니라 다른 여러 요소들이 영향을 미치니까. 그런데 최근에 (제 기억으로는 제가 꺾인 상병이던 2009년 초) 한국군은 병사들에 대한 담배 지급 정책에 변화를 줍니다. 기존에는 담배를 신청하면 무료로 배급했는데 이를 중단하고 대신 전체 병사들의 월급을 소폭 인상시켜준거죠. 아마 ‘왜 군이 흡연 병사에 대해서만 비흡연 병사보다 더 물질적 혜택을 주는가?’라는 문제제기, 그리고 군의 금연 장려 정책의 일환으로서 시행된 정책 변화 같습니다. 그렇다면 정책이 시행된 2009년 이전과 이후에 대해 처리군(현역으로 군대 갔다 온 남성의 2세)과 통제군(공익, 병역특례, 면제 등 현역으로 군대 갔다오지 않은 남성의 2세)의 소득, 교육수준등을 비교한다면 금연 정책의 변화가 2세의 소득에 어떤 영향을 미치는지 보다 정확히 알 수 있지 않을까 생각이 듭니다. 물론 보다 정확한 분석을 위해서는 몇 가지 가정을 더 도입해야 하겠습니다만... (그리고 무엇보다 분석에 필요한 데이터가 있어야 합니다만!) (각주3)

각주1) DID에 대해서는 위키피디아
http://en.wikipedia.org/wiki/Difference_in_differences에 잘 설명이 되어 있습니다.

각주2) 이 예시는 다음 논문의 주된 내용으로 필자가 지난 학기 수업에서 접한 논문입니다.
"Effects of Ability Mixing in High School on Adulthood Earnings: Quasi-Experimental Evidence from South Korea"(강창희, 박철성, 이명재. 2007. Journal of Population Economics)
http://prof.cau.ac.kr/~ckang/papers/Effects%20of%20ability%20mixing.pdf)

각주3) 사실 지난 학기 우리 학부의 BK21 세미나에서 제가 쓴 것과 유사한 내용의 논문을 발표하신 어느 스웨덴 노동경제학자가 있었습니다. 원래 스웨덴은 1960년대 21세 이하 청소년 음주에 대해 엄격하게 통제를 했다고 합니다. 그런데 특정 지역에 대해 1960년대 초 6개월간 저알콜 주류 판매를 완화한 적이 있습니다. 이들에 대한 데이터를 토대로 음주정책의 변화가 2세들의 소득, 교육수준에 어떤 영향을 미치는지 면밀히 조사한 논문이었습니다. 해당 논문은 다음과 같습니다.

“Does a Pint a Day Affect Your Child's Pay? Unintended and Permanent Consequences of a Temporary Alcohol Policy Experiment”(Peter Nilsson, 2012, Working Paper)

댓글 9개:

  1. 재미있으면서도 직관적으로 이해가 쉬운 기법이네요. 특히 어떠한 실험집단을 선택할때.. 대조군(통제군)으로는 가능한 실험집단과 성격이 유사한 집단을 고르는 것이 관건이 되겠네요. 아니면 최대한 사회의 외생적인 충격이 유사한 집단을 고르거나..

    답글삭제
  2. "다만 여기서 주의해야 할 것은 시간의 흐름에 따르는 외생적 효과(time effect)가 통제군과 처리군 모두 같다고 가정해야 한다는 점입니다. 두 개가 다르다면 정책의 변화가 미치는 순수한 효과를 뽑아내는데 어려움이 있겠지요."

    라는 대목이 핵심으로 보이구요. treat하는 변수에 대하여 다른 변수들이 독립적인지 아닌지가 매우 중요할 것 같습니다. 예를 들어 흡연여부에 따라 "수퍼마켓으로부터의 거리"가 소비에 미치는 영향(탄력성)의 크기가 다를 수도 있을 것 같아서요. 이 예시에서는 흡연자가 수퍼마켓으로부터의 거리에 무관하게 담배를 사러 가는 경우가 많을 것 같고, 그렇다면 흡연자의 "거리에 대한 탄력성"이 더 작을 거라는 조심스러운 예상을 해봅니다.

    답글삭제
  3. 흡연에 대한 연구에 대해서: 한 이십년만 (...) 묵혀놓으면 아주 깔끔한 연구가 될 것 같은데요?? 다만 담배가 워낙 중독성이 강해서 n이 커야겠네요. (정책 시행 이전과 이후에 흡연율이 얼마나 변했나 궁금하네요.

    근데 y가 뭐가 되는거죠? 소득? 건강?

    지금 미리 구할 수 있는 데이터는 확보해놓으시면 좋을 것 같아요.

    답글삭제
    답글
    1. 위에 언급한 P.Nillson의 논문에서는 아마 소득하고 교육수준이었을 거에요.

      근데 군대에서의 병사라는게 하도 스트레스들을 받다보니 흡연율이 별로 안변했을 것 같기도 하고...ㅎㅎ다른 한편으로 생각하면 안그래도 월급이 적은데 공짜로 주던 담배마저 안주고 '사서 피워!' 이러면 흡연율이 확 떨어질 것 같기도 하고. 원래 대부분의 남자들이 군대에서 담배 배운다는게, 하도 스트레스 받다보니 뭔가 스트레스는 해소해야겠고 담배는 신청하면 '공짜'로 주니까 배우게 되는 건데 이걸 공짜로 안주면 기존의 흡연자가 새롭게 금연할 가능성은 직관적으로 크지 않을 것 같지만 (담배는 중독성이 강하니까) 비흡연자가 흡연을 하게될 확률은 상당히 낮아지지 않을까 싶어요. 기껏해야 한 달에 10만원 남짓 받는데 (군납 담배들은 면세라고는 하지만) 한 갑에 2천원 정도씩 주고 담배 피울려면...ㅎㄷㄷ

      한 20년만 잘 묵혀놓고 기다리죠 뭐. 근데 역시 '적절한' 데이터가 존재해야 한다는게 문제인데 우리나라 패널데이터들이 '병역 복무 여부 및 기간'을 질문하던가...ㅠㅠ

      삭제
  4. DID에 대한 소개 감사합니다~~ 이전부터 알고싶었던 방법인데, 이제 확실히 무엇인지 알겠네요. 더불어 지난학기에 계량 중간셤에서 더미변수 두개를 곱한 항(DID를 뽑아내는 항)을 모형에 안써서 감점당했던 아픈기억도 새록새록.... ㅜ 근데 혹시 '시간의 흐름에 따르는 외생적 효과(time effect)'가 통제군과 처리군에게 다르게 적용될 경우 사용할 수 있는 방법도 있나요??? 책 안뒤져보고 게으르게 한번 여쭈어 봅니다 ㅎㅎㅎ

    답글삭제
  5. 작성자가 댓글을 삭제했습니다.

    답글삭제
  6. 감사합니다. 에너지 관련 경제수업을 수강하는 도중 문득 튀어나온 이중차분법이 잘 이해가 안됐었는데... 이런거였군요. 계량경제학 강의를 수강했을때 들었던 기억이 다시 새록새록 생각나네요. 직관적으로 이해가 잘되어서 도움 많이 받았습니다!

    답글삭제
  7. 전문가들이 부수적 변인요소들 예시를 통해 설명하므로 이해가 쉬웠습니다. 감사합니다.

    답글삭제