환영회식사

환영회식사

2013년 3월 18일 월요일

Truncation, Censored Data, and Sample Selection


지난 주 노동경제학연구 수업시간에 존경하옵는(진심으로!) 우리 교수님께서는 단순한 계량모형으로 시간당 임금을 추정하는 것에 어떤 문제점이 있는지를 알려주시고, 이를 극복하고 추정을 가능케 해주신 해님과도 같은 헤크만의 two-step estimation(James J. Heckman, 1979)에 대하여 해님께서 걸어 다니시는 속도로 우리에게 설명해 주셨습니다. 이에 깊은 감명은 받으며 칠판에 적어주시는 수식을 인지능력을 넘나들며 노트에 옮겨 그린적은 저는, 연구실에 와서야 해님의 은총이 저에게 잔상조차 남기지 않은 채 지나가셨다는 것을 깨닫게 되었고, 눈물과 함께한 짧은 시간 동안의 공황을 힘겨이 넘어 교수님의 말씀을 되짚어 나가기 위해 헤크만의 논문을 읽기 시작하였습니다. 

헤크만은 이 논문의 서문에서 “specification error로서의 sample selection bias에 대하여 논하고, censored sample의 경우 이 specification error를 없앨 수 있는 간편한 추정방법을 제시한다(This paper discusses sample selection bias as a specification error and presents a simple consistent estimation method that eliminates the specification error for the case of censored samples).”라고 이야기 합니다. 음...? 일단 specification error, sample selection, 그리고 censored sample이라는 단어들이 우리의 마음을 불편하게 만들지 않나요? 

이번 글에서는 배웠으나 배우지 않은 것 같고, 매우 자주 듣기도 하거니와 자연스럽게(?) 우리의 대화 내용 속에 등장하지만 그 의미의 차이가 마치 일란성 쌍둥이의 눈을 번갈아 바라보는 것 마냥 우리의저의 뇌 속에서 유영하고 있는 그들! Truncation, Censored Data, 그리고 Sample Selection의 의미에 대하여 Greene(William H. Greene)님의 도움을 받아 예제를 통하여 알아보는 시간을 갖도록 하겠습니다. (specification error 안녕.... ㅋ)

Truncation
연구자 A가 있습니다. A는 연소득이 $100,000 이상인 미국가구의 연소득을 조사합니다. Q: 그는 이 조사 결과를 통해 0부터 매우 큰 숫자 사이에 퍼져 있을 미국가구의 평균 연소득을 계산해 낼 수 있을까요? 연구자 A가 조사한 연소득 $100,000 이상인 미국가구의 소득분포는 미국가구 전체의 소득분포의 오른쪽 끝자락에 불과합니다 - 이렇게 모집단 전체의 일부분만을 조사한 자료를 우리는 truncated distribution에서 뽑은 확률변수라고 하고요. A는 위의 질문에 대한 답을 구할 수 있을까요? 당연하지만 재미있게도, 만약 A가 모집단 분포의 형태를 알 수 있고, truncated distribution이 이 분포의 몇%를 차지하고 있는지 알 수 있다면 가지고 있는 자료만으로도 그는 미국가구의 평균 연소득을 계산해낼 수 있습니다(Econometric Analysis 7ED, W. H. Greene, p. 876, 877).

Censored Data
연구자 B는 20,000석 규모의 한 경기장에서 열리는 대회의 티켓 수요에 대해 알고 싶어 합니다. B가 얻을 수 있는 정보는 팔린 티켓의 수가 전부인데, 티켓은 한 경기당 20,000장 까지만 팔 수 있다는 점에서 B는 수요의 추정에 어려움을 겪습니다. 티켓이 완판 되었다는 것은 티켓 수요가 20,000장을 넘어섰다는 것을 뜻하니까요. 20,000장이 넘는 티켓 수요는 B에게 20,000장으로 조사될 것이고 B가 만약 이러한 정보만으로 티켓수요에 대한 평균을 계산한다면 B의 평균은 실제 평균보다 낮은 값을 갖게 되겠지요(Econometric Analysis 7ED, W. H. Greene, p. 887, 888)? 이렇게 어떤 변수의 특정 범위의 값이 하나의 값으로만 측정되는 경우 우리는 그 변수가 censored되었다고 하고, 이러한 변수를 censored variable이라고 부릅니다.

Sample Selection(truncation의 종류 중 하나라고 합니다)
연구자 C는 앞의 truncation 예에서의 연구자 A처럼 미국가구의 평균 연소득에 관심이 있습니다. 대신, C는 집을 제외한 순 자산이 $500,000 이상인 가구의 연소득만을 조사하였다고 합시다. 이제, 연구자 C는 조사된 가구의 연소득을 가지고 미국가구의 평균 연소득을 추정합니다. 흠... 무엇이 잘못되었을까요? 사실, 순 자산이 $500,000 이상인 가구일지라도 연소득은 매우 낮을 수 있겠지요. 따라서 truncation의 예에서와 같이 일정 수준 이상의 연소득을 버는 가구만을 가지고 전체 미국가구의 평균 연소득을 추정하는 오류를 범할 가능성은 줄어들 것입니다. 하지만 평균적으로, 소유하고 있는 순 자산이 많을수록 연소득 또한 높을 것이라고 예상할 수 있겠지요? 따라서 무작정 이들의 연소득을 평균해 버린다면 그 값은 실제 미국가구의 평균 연소득과는 차이가 있을 것입니다. 또한 이렇게 조사된 연소득을 과연 무작위로 추출된 표본이라고 할 수 있을까요(Econometric Analysis 7ED, W. H. Greene, p. 912)? 여러 면에서 이러한 자료를 이용하는 일에는 주의가 필요해 보입니다. Sample Selection은 위의 두 경우와는 달리 한줄 요약이 어렵네요... 하지만 위의 예를 통하여 이것이 어떤 상황을 의미하는지 어느 정도 이해하셨으리라 생각합니다.

처음 기초적인 통계기법을 배우고, 어떻게든 얻은 데이터를 통하여 자신이 추론한 결론을 얻으려 노력 하였으나 실패한 경험, 다들 하나씩은 있으시리라 생각합니다. 이러한 실패의 이유 중 하나는 아마도 데이터가 어떻게 수집되었는지, 수집된 데이터는 어떤 그룹의 것인지에 대한 이해가 부족했기 때문이었겠지요. 사실 위에 언급한 세 가지는 우리가 엠피리컬 워크를 할 때 주의해야할 것들 중의 극히 일부분에 지나지 않습니다. 하지만 지금까지 구분하기 힘들었던 위의 세 용어가 언제 쓰이는 것인지 알게 되었다는 점에 큰 의미를 두며 이번 글을 마쳐볼까 합니다.


*참고문헌
Heckman, James J., "Sample Selection Bias as a Specification Error," Econometrica, 1979
Greene, William H., "Econometric Analysis 7th ED," Pearson, 2012

댓글 1개:

  1. Heckman의 Two step method에 대해 경제학 연습 발표 준비를 하면서 공부했었는데 이 글에서 보게 되어 은근히 반갑네요! 발제 준비하면서 막연하게 truncated data, censored data 등등에 대해 대충만 알고 넘어갔었는데 여기서 이렇게 친절히 설명된 글을 읽고 더 정확히 이해할 수 있어서 좋았습니다!! 그런데 사실 제가 경제학 연습에서 발제한 부분은 임금을 추정할 때와 같이 missing outcome이 발생할 때 Heckman과 같은 전통적인 접근이 어떠한 문제점이 있는지를 보이고 그 대안으로 partial identification을 제시하고 있는 챕터였습니다. Heckman의 모형과 같은 경우에는 error term들이 정규 분포를 따른다는 가정과 선형 모형이라는 강한 가정들을 포함하고 있으나 노동경제학의 어떠한 이론도 이러한 가정들을 justify해주지는 못하기 때문이죠. 따라서 이 챕터에서.. 아니 사실 그 책 전체에서 주장하는 바는 분포에 대한 암묵적인 가정 없이 좀 더 신뢰성 있는 모수 식별을 해보자는 겁니다. 물론 이 때는 Heckman의 two step method처럼 점식별(point identification)할 수는 없겠지만 최소한 구간으로 부분식별(partial identification)은 할 수 있고 이는 강한 가정 없이 한 추정이기 때문에 더 신뢰성 있는 추정이라는 것이지요. 혹시 관심이 있으시면 Manski의 책들을 찾아보세요~.~
    비슷한 시기에 같은 모형을 다른 관점에서 공부한 것 같아 반가운 마음에 댓글을 남깁니다. 잘 읽었습니다.

    답글삭제