Artificial Intelligence/Studying

[Causal Inference] 01. Introduction to causality

geum 2023. 4. 30. 16:31

์ฃผ 1ํšŒ ์ง„ํ–‰ํ•˜๋Š” ์Šคํ„ฐ๋”” ๋ชจ์ž„์—์„œ ํ•จ๊ป˜ ๊ณต๋ถ€ํ•ด๋ณด๊ธฐ๋กœ ํ•œ ์ž๋ฃŒ ์ •๋ฆฌ ๋ชฉ์ ์œผ๋กœ ๊ธ€์„ ์ž‘์„ฑํ•œ๋‹ค. ์Šคํ„ฐ๋””์›๋ถ„๊ป˜์„œ ์ข‹์€ ์ž๋ฃŒ๋ฅผ ์ถ”์ฒœํ•ด์ฃผ์…”์„œ ์ •๋ง ์˜ค๋žœ๋งŒ์— ์ง„๋“ํ•œ ์ด๋ก  ๊ณต๋ถ€๋ฅผ ํ•˜๊ฒŒ ๋  ๊ฒƒ ๊ฐ™๋‹ค.

 

์›๋ฌธ: https://github.com/CausalInferenceLab/Causal-Inference-with-Python


๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ์ธ๊ณผ๊ด€๊ณ„

โ—พ ๋จธ์‹ ๋Ÿฌ๋‹์€ ์—„๊ฒฉํ•œ ๋ฐ”์šด๋”๋ฆฌ ์•ˆ์—์„œ ์—„์ฒญ๋‚œ ์ผ์„ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ์ด ํ•™์Šตํ•œ ๊ฒƒ๊ณผ ์กฐ๊ธˆ ๋‹ค๋ฅผ ๊ฒฝ์šฐ ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ

โ—พ ๋จธ์‹ ๋Ÿฌ๋‹์€ ์ƒ๊ด€๊ด€๊ณ„์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ธ๊ณผ๊ด€๊ณ„(causation) ์œ ํ˜•์˜ ๋ฌธ์ œ๋ฅผ ์ž˜ ๋‹ค๋ฃจ์ง€ ๋ชปํ•จ

์˜ˆ์‹œ) "ํ˜ธํ…” ์‚ฐ์—…์—์„œ ๊ฐ€๊ฒฉ์€ ๋น„์ˆ˜๊ธฐ์ผ ๋•Œ ์ €๋ ดํ•˜๊ณ , ์ˆ˜์š”๊ฐ€ ๊ฐ€์žฅ ๋งŽ๊ณ  ํ˜ธํ…”์ด ๊ฐ€๋“ ์ฐจ๋Š” ์„ฑ์ˆ˜๊ธฐ ์‹œ์ฆŒ์—๋Š” ๊ฐ€๊ฒฉ์ด ๋†’์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ˆœ์ง„ํ•œ ์˜ˆ์ธก(Naive predicition)์—์„œ๋Š” ๊ฐ€๊ฒฉ์„ ์ธ์ƒํ•˜๋ฉด, ๋” ๋งŽ์€ ๊ฐ์‹ค์ด ํŒ”๋ฆด ๊ฒƒ์ด๋ผ๊ณ  ์ œ์•ˆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์ธ๊ณผ๊ด€๊ณ„)"

โ—พ '์—ฐ๊ด€(association)'์ด ์ธ๊ณผ๊ด€๊ณ„๋Š” ์•„๋‹ˆ์ง€๋งŒ, ๊ทธ ์ด์œ ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์€ ์ข€ ๋” ๋ณต์žกํ•จ

 

์—ฐ๊ด€์„ฑ์ด ์ธ๊ณผ๊ด€๊ณ„๊ฐ€ ๋  ๋•Œ

โœ… Notation

$ T_i $: unit i (์‹คํ—˜๋Œ€์ƒ i)์— ๋Œ€ํ•œ Treatment(์ฒ˜์น˜, ํšจ๊ณผ๋ฅผ ์•Œ๊ณ ์ž ํ•˜๋Š” ์ผ๋ถ€ ๊ฐœ์ž…์„ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ ์‚ฌ์šฉํ•  ์šฉ์–ด) ์—ฌ๋ถ€

$ Y_i $: unit i์— ๋Œ€ํ•ด ๊ด€์ฐฐ๋œ ๊ฒฐ๊ณผ ๋ณ€์ˆ˜

$ Y_0i $: unit i๊ฐ€ Treatment๋ฅผ ๋ฐ›์ง€ ์•Š์€ ์ž ์žฌ์  ๊ฒฐ๊ณผ

$ Y_1i $: $ Y_0i $์—์„œ์˜ unit  i์™€ ๋™์ผํ•œ unit i๊ฐ€ Treatment๋ฅผ ๋ฐ›์€ ์ž ์žฌ์  ๊ฒฐ๊ณผ

 

โ—พ ์ธ๊ณผ์  ์ถ”๋ก ์˜ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ(Fundamental problem of causal inference)๋Š” Treatment๊ฐ€ ์žˆ๋“  ์—†๋“  ๊ฐ™์€ ์‹คํ—˜ ๋Œ€์ƒ์— ๋Œ€ํ•ด ๋™์‹œ์— ๊ด€์ฐฐํ•  ์ˆ˜ ์—†์Œ

โ—พ ํƒœ๋ธ”๋ฆฟ-ํ•™์—… ์„ฑ์ทจ ์˜ˆ์ œ์— ์ ์šฉํ•ด๋ณด๊ธฐ

โ—พ ์ž ์žฌ์  ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ๊ฐœ๋ณ„ ์ฒ˜์น˜ ํšจ๊ณผ(ITE, Individual Treatment Effect) $ Y_1i-Y_0i $๋ฅผ ์ •์˜ํ•  ์ˆ˜ ์žˆ์Œ

โ—พ ITE ์ •์˜๋Š” ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๊ฐ™์€ ์‹คํ—˜ ๋Œ€์ƒ์— ๋Œ€ํ•ด ์ž ์žฌ์  ๊ฒฐ๊ณผ๋ฅผ ํ•˜๋‚˜ ๋ฐ–์— ๊ด€์ฐฐํ•  ์ˆ˜ ์—†๋Š” ์ธ๊ณผ์ถ”๋ก ์˜ ๊ทผ๋ณธ์  ๋ฌธ์ œ๋กœ ์ธํ•ด ITE๋ฅผ ์•Œ ์ˆ˜๋Š” ์—†์Œ

โ—พ ITE๋ฅผ ์ง์ ‘ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ ๋Œ€์‹ , ํ‰๊ท  ์ฒ˜์น˜ ํšจ๊ณผ(ATE, Average Treatment Effect) $ E[Y_1-Y_0] $์˜ ์ถ”์ •์ด ๋” ์‰ฌ์›€

โ—พ ์ฒ˜์น˜๋ฐ›์€ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ํ‰๊ท  ์ฒ˜์น˜ ํšจ๊ณผ(ATET/ATT, average treatment effect on the treated) $ E[Y_1-Y_0|T=1] $์˜ ์ถ”์ •์ด ์ข€ ๋” ์‰ฌ์›€

 

Bias

๐Ÿ’ญ ํƒœ๋ธ”๋ฆฟ ์˜ˆ์‹œ์—์„œ์˜ ํŽธํ–ฅ์ด ์ •ํ™•ํžˆ ๋ญ˜๊นŒ?

 

โ—พ 'ํŽธํ–ฅ'์€ ์—ฐ๊ด€์„ฑ์„ ์ธ๊ณผ๊ด€๊ณ„์™€ ๋‹ค๋ฅด๊ฒŒ ๋งŒ๋“ฆ → Bias๋Š” ์‹คํ—˜๊ตฐ๊ณผ ๋Œ€์กฐ๊ตฐ์ด ์ฒ˜์น˜๋ฅผ ๋ฐ›์ง€ ์•Š์€ ๊ฒฝ์šฐ, ์ฒ˜์น˜ ์ „์— ์‹คํ—˜๊ตฐ๊ณผ ๋Œ€์กฐ๊ตฐ์ด ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ„

โ—พ ์ž ์žฌ์  ๊ฒฐ๊ณผ ํ‘œ๊ธฐ๋ฒ•์—์„œ ์ฒ˜์น˜๋ฐ›์€ $ Y_0 $์™€ ์ฒ˜์น˜๋ฐ›์ง€ ์•Š์€ $ Y_0 $๋Š” ๋‹ค๋ฆ„ → ์ฒ˜์น˜๋ฐ›์€ $ Y_0 $์€ ๋ฐ˜์‚ฌ์‹ค

โ—พ ์—ฐ๊ด€์„ฑ = ํƒœ๋ธ”๋ฆฟ์ด ์žˆ๋Š” ํ•™๊ต์˜ ํ‰๊ท  ์‹œํ—˜ ์ ์ˆ˜-ํƒœ๋ธ”๋ฆฟ์ด ์—†๋Š” ํ•™๊ต์˜ ํ‰๊ท  ์‹œํ—˜ ์ ์ˆ˜=$ E[Y|T=1]-E[Y|T=0] $

โ—พ ์ธ๊ณผ๊ด€๊ณ„ = $ E[Y_1-Y_0] $

โ—พ ์—ฐ๊ด€์„ฑ ์ธก์ • ํ›„ ๊ด€์ฐฐ๋œ ๊ฒฐ๊ณผ๋ฅผ ์ž ์žฌ์  ๊ฒฐ๊ณผ๋กœ ๋Œ€์ฒดํ•  ๊ฒฝ์šฐ, $ E[Y|T=1]-E[Y|T=0] = E[Y_1|T=1]-E[Y_0|T=0] $

โ—พ $ E[Y_0|T=0]=E[Y_0|T=1] $์ด๋ฉด

      = ์—ฐ๊ด€์„ฑ์€ ์ธ๊ณผ๊ด€๊ณ„์™€ ๊ฐ™์Œ

      = ์‹คํ—˜๊ตฐ๊ณผ ๋Œ€์กฐ๊ตฐ์ด ๋น„๊ต ๊ฐ€๋Šฅํ•จ

      = ์‹คํ—˜๊ตฐ์ด ์ฒ˜์น˜๋ฅผ ๋ฐ›์ง€ ์•Š์•˜์„ ๋•Œ $ Y_0 $๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ๊ทธ ๊ฒฐ๊ณผ๋Š” ์ฒ˜์น˜๋ฅผ ๋ฐ›์ง€ ์•Š์€ ๊ฒƒ๊ณผ ๋™์ผํ•จ

      = ๊ฒฐ๊ณผ์ ์œผ๋กœ ํŽธํ–ฅ ํ•ญ์ด ์‚ฌ๋ผ์ง

โ—พ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๊ทธ๋ฃน์ผ ๊ฒฝ์šฐ ๋‘ ์ง‘๋‹จ์˜ ํ‰๊ท  ์ฐจ์ด๊ฐ€ ์ธ๊ณผํšจ๊ณผ๊ฐ€ ๋จ