Potential outcome framework
Endogeneity in causal inference
인과추론이 어려운 이유는 Endogeneity(내생성) 때문이다.
모델링하고자 하는 종속 변수와 독립 변수간의 상호 의존성이 존재해서 서로 영향을 끼치는 경우 endogenous하다고 한다

Everything is Endogenous
스티븐 잡스가 연설했던 connecting the dots처럼 모든 것들은 연결되어 있고 영향을 준다.
따라서 대부분의 인과추론 방법론들은 causal effect를 계산하기 위해 Endogenity problem을 해결하려고 한다.

단순하게 treatment group과 control group을 나눠서 그 차이로 인과를 설명할 수 있을까?
대부분의 연구에서 selection process는 생략되기 마련이다.
가령, 학교에서 교환학생을 다녀온 학생들과 그렇지 않은 학생들의 영어 실력 비교를 하려고 그룹을 나눴다고 가정해보자.
두 집단의 6개월 전후의 영어실력 점수로 이를 정량화 할 수 있을까?
treatment group을 선발하는 과정에서 서류를 검토하고 면접을 보는 등, 참여자의 application 유무에 따라서 그룹이 나눠졌을 것이다. 그렇다면 pass여부의 기준처럼 이들 지원자들의 실력이나 성적, 태도 등 종속변수에 영향을 끼치는 그룹간 분포의 차이가 있을 것이다.
이처럼 모든 인과추론 방법들은 data generation process를 이해하고 모델링하는 것이다.
내생성 변수를 해결하기 위한 접근법들
- Research Design for Causal Inference
연구자가 research design을 설계한다면, selection bias를 통제하는 상황이 아닐까?- Randomized Controlled Trial
- (Natural) Quasi-Experiment
- Local Average Treatment Effect (LATE)
- Selection Model (Statistical Modeling)
- Causal Graph (Graphical Modeling)
Potential outcome framework

treatment 전후의 차이로 causation을 정량적으로 계산할 수 있다는 관점을 potential outcome framework라고 한다.
Causal effect는 treat의 결과와 treat가 일어나지 않았지만 실제 일어났을 때의 잠재적 결과(Counterfactual) 의 차이로 정의할 수 있다.
일어나지 않았기 때문에 관측할 수 없는 counterfactual을 계산하기 위해 treatment group과 유사한 control group을 이용한다. 여기서 Selection Bias의 개념이 등장한다.

반려동물을 키우는 사람과 키우지 않는 사람의 우울증 정도 비교를 해보자. 주사위를 돌려서 랜덤하게 반려동물을 키우지 않는 이상, 반려동물을 키우는 행위는 그 사람의 자연적인 선택이다. 그런데 그 선택이 우울증 여부와 과연 무관할까? 평소 우울감이 있기 때문에 그런 선택을 하게 되지 않았을까?
이처럼 treatment가 없더라도, control group을 동등하게 비교할 수는 없다. 하지만 어떤 변수가 영향을 미치는 원인인지를 알 수 있다면, 이를 통제하여 최대한 comparable group을 만들 수 있지 않을까?
정리하자면 counterfactual 과 현실에서 실제 treatment를 받은 그룹의 차이에는 causal effect 뿐만 아니라 selection bias가 포함되어 있다. 이 때 selection bias를 야기하는 교란요인을 confounder factor라고 한다.

- Decomposition of causal effect and selection bias
- Observed effect of the treatment = Causal effect + Selection bias
그렇다면 Counterfactual 에 가까운 control group 을 찾는 것이 가능할까? - CETERIS PARIBUS : all other thins being equal treatment 를 제외하고 다른 모든 것들이 동일할 때
potential outcomes의 관점에서, causal inference는 selection bias를 제거하는 것이다.
selection bias = (Outcome for treated if not treated) - (Outcome for untreated if not treated)
- 마지막으로 아래 예시를 통해 이해해보자

- 직장에서 오프라인으로 근무하는 사람과 재택근무를 하는 사람들의 업무 효율을 비교해보려고 한다. 이전에 그룹을 나누는 기준에 대해 생각해 봐야 할 것이다.
과연 재택근무를 지원한 사람과 그렇지 않은 사람들의 특성이 동일할까? 결혼유무, 수면 패턴,음악 듣기 등 여러가지 요인이 있을 수 있음. 따라서 지원 여부로 그룹을 나누게 되면 selection bias를 배제할 수 없다. - 이를 해결하는 방법은 재택근무를 지원한 사람들을 대상으로 무작위로(Randomized) 두 그룹으로 나누는 것이다
→ Randomized treatment gorup과 Randomized control group (counterfactual)은 유사하다고 볼 수 있다. 이를 통해 selection bias를 최대한 줄였다고 가정하고 counterfactual(as-if)을 계산할 수 있다.
댓글을 사용할 수 없습니다.