두 변수의 관계 -- 상관은 인과가 아니다
산점도, 상관계수, 심슨의 역설
아이스크림이 사람을 죽이는가?
아이스크림 판매량과 익사 사고 건수의 상관계수는 r = 0.87로 매우 높습니다. 그렇다면 아이스크림이 사람을 익사시키는 걸까요? 아니면 익사 사고가 아이스크림 소비를 촉진하는 걸까요?
물론 둘 다 아닙니다. 기온이라는 숨겨진 변수(교란변수)가 두 변수를 동시에 끌어올리는 것입니다. 기온이 오르면 아이스크림도 많이 팔리고, 수영하는 사람도 많아져 익사도 늘어납니다.
이 장에서는 두 변수 사이의 관계를 측정하는 방법을 배우고, "상관은 인과가 아니다(Correlation is not causation)"라는 통계학의 가장 중요한 경고를 깊이 이해합니다.
핵심은 "한 변수가 움직일 때 다른 변수도 규칙적으로 따라 움직이는가"입니다.
Interactive 1: Anscombe의 사중주
1973년, 통계학자 Francis Anscombe는 네 개의 데이터셋을 만들었습니다. 이 네 데이터셋은 평균, 분산, 상관계수, 회귀선이 거의 동일합니다. 하지만 산점도는 전혀 다릅니다.
Interactive 2: 상관계수 놀이터
산점도 위에 직접 점을 찍어보세요. Pearson 상관계수(r)가 실시간으로 계산됩니다. r이 어떤 상황에서 높거나 낮은지, 그리고 r의 한계가 무엇인지 체감하세요.
- r > 0.9를 만들되, 직선이 아닌 곡선 관계의 데이터를 찍어보세요. r은 높지만 선형관계가 아닌 경우입니다.
- r = 0 (거의)이지만 확실한 패턴이 있는 데이터를 만들어보세요. (힌트: U자형 또는 원형)
- 5개의 점만으로 r = 0.5 근처를 만들어보세요. 점 하나의 위치를 바꾸면 r이 급변하는 것을 확인하세요.
- 점을 30개 정도 찍어서 r = 0.7 정도를 만들고, 한쪽 구석에 이상치 하나를 추가해보세요. r이 얼마나 변하나요?
r = SUM[(Xi - X_bar)(Yi - Y_bar)] / sqrt(SUM[(Xi - X_bar)^2] * SUM[(Yi - Y_bar)^2])
-1 <= r <= 1
r = 1: 완벽한 양의 선형관계 | r = -1: 완벽한 음의 선형관계 | r = 0: 선형관계 없음
(1) 각 데이터 점에서 X의 평균과 Y의 평균을 빼서, "평균에서 얼마나 벗어났는가"를 구합니다.
(2) X가 평균보다 클 때 Y도 평균보다 크면 곱이 양수 (+), X가 클 때 Y가 작으면 곱이 음수 (-)가 됩니다.
(3) 이 곱들을 모두 더하면: 양수끼리 많으면 양의 상관, 음수끼리 많으면 음의 상관, 뒤섞이면 0에 가까워집니다.
(4) 마지막으로 X와 Y 각각의 퍼짐 정도로 나누어 -1과 +1 사이로 표준화합니다.
r 값의 크기 해석:
|r| = 0.0 ~ 0.3: 약한 상관 (두 변수가 거의 독립적으로 움직임)
|r| = 0.3 ~ 0.7: 중간 상관 (함께 움직이는 경향이 있지만 예외도 많음)
|r| = 0.7 ~ 1.0: 강한 상관 (하나를 알면 다른 하나를 꽤 잘 예측할 수 있음)
쉽게 말하면, r은 "두 변수가 직선적으로 얼마나 손발이 맞는가"를 -1에서 +1 사이 숫자 하나로 요약한 것입니다.
Interactive 3: 허위상관 갤러리
실제로 높은 상관계수를 보이지만 인과관계가 전혀 없는 사례들입니다. 각 사례를 보고 "왜 인과가 아닌지" 생각해보세요.
- 아이스크림 판매량과 익사 사고 (r=0.87): 아이스크림이 익사를 일으키는 게 아닙니다. 숨은 변수 "여름 기온"이 둘 다 높이는 것입니다.
- 소방관 출동 수와 화재 피해 규모 (양의 상관): 소방관이 많이 출동할수록 피해가 크다고 해서, 소방관이 피해를 키우는 것이 아닙니다. 큰 불이 나면 소방관도 많이 출동하고 피해도 큰 것입니다.
- 한 나라의 초콜릿 소비량과 노벨상 수상자 수 (r=0.79): 초콜릿을 먹는다고 노벨상을 받는 것이 아닙니다. 부유한 나라일수록 초콜릿도 많이 소비하고 연구 인프라도 좋아서 노벨상 수상자가 많은 것입니다.
쉽게 말하면, 두 변수가 함께 움직이는 것처럼 보이는 진짜 이유가 "제3의 숨은 원인" 때문인 경우가 많습니다. 마치 그림자 인형극에서 두 인형이 함께 움직이는 것 같지만, 실은 뒤에서 한 사람이 조종하는 것과 같습니다.
- 공변(Covariation): X가 변할 때 Y도 변한다 (상관은 이것만 확인).
- 시간적 선행(Temporal precedence): X의 변화가 Y의 변화보다 먼저 일어난다.
- 대안 설명의 배제(No confounders): 제3의 변수가 둘 다를 야기한 것이 아니다.
관찰 연구에서는 3번 조건을 완벽하게 충족하기 매우 어렵습니다. 이것이 무작위 통제 실험(RCT)이 인과 추론의 "황금 기준"인 이유입니다.
Interactive 4: 심슨의 역설
전체 데이터를 보면 한 방향의 관계가 보이는데, 집단별로 나누면 관계가 반대 방향으로 뒤집히는 현상입니다. 실제 대학 입시 데이터에서 발생한 유명한 사례를 재현합니다.
비유하자면, 학급 전체 평균은 A반이 높은데, 남학생끼리 비교하면 B반이 높고 여학생끼리 비교해도 B반이 높은 경우입니다. 이런 모순이 가능한 이유는 A반에 원래 성적이 높은 학생(예: 여학생)의 비율이 월등히 높기 때문입니다.
한 대학의 전체 합격률: 남성 45%, 여성 30%. 성차별인가? 그런데 학과별로 나눠보면...
| 학과 | 남성 지원 | 남성 합격률 | 여성 지원 | 여성 합격률 |
|---|
- "전체 보기"와 "학과별로 나누기"를 번갈아 클릭하며 추세가 뒤집히는 것을 확인하세요.
- 아래 표에서 각 학과의 합격률을 비교하세요. 어떤 학과가 가장 경쟁이 치열한가요?
- 실생활에서 심슨의 역설이 나타날 수 있는 상황을 하나 생각해보세요.
Interactive 5: 상관행렬 탐색기
한국 경제 지표 데이터에서 변수들을 선택하여 상관행렬(히트맵)과 산점도 행렬을 자동 생성합니다. 어떤 변수 쌍이 강한 상관을 보이는지 탐색하세요.
- GDP 성장률과 실업률의 상관을 확인하세요. 부호가 음수인가요? 왜 그런가요?
- 상관이 가장 높은 변수 쌍은 무엇인가요? 그 관계가 인과관계라고 말할 수 있나요?
- 6개 변수를 모두 선택하고 히트맵의 패턴을 관찰하세요. 변수 그룹이 보이나요?
- 산점도는 두 변수의 관계를 파악하는 가장 기본적이고 강력한 도구이다.
- Pearson r은 선형 관계의 강도와 방향만 측정한다. 곡선 관계는 감지하지 못한다.
- 항상 시각화를 먼저 하라 (Anscombe의 교훈).
- 상관은 인과가 아니다 -- 교란변수, 역인과, 우연의 일치가 존재할 수 있다.
- 심슨의 역설: 집계 수준에 따라 결론이 뒤집힐 수 있다.
- Spearman 순위상관은 비선형 단조관계와 서열 데이터에 적합하다.
다음 장 예고: 지금까지 배운 기술통계를 종합하여 한국 경제 데이터를 직접 탐색하는 캡스톤 프로젝트에 도전합니다.