PART 1 · 6장

두 변수의 관계 -- 상관은 인과가 아니다

산점도, 상관계수, 심슨의 역설

아이스크림이 사람을 죽이는가?

아이스크림 판매량과 익사 사고 건수의 상관계수는 r = 0.87로 매우 높습니다. 그렇다면 아이스크림이 사람을 익사시키는 걸까요? 아니면 익사 사고가 아이스크림 소비를 촉진하는 걸까요?

물론 둘 다 아닙니다. 기온이라는 숨겨진 변수(교란변수)가 두 변수를 동시에 끌어올리는 것입니다. 기온이 오르면 아이스크림도 많이 팔리고, 수영하는 사람도 많아져 익사도 늘어납니다.

이 장에서는 두 변수 사이의 관계를 측정하는 방법을 배우고, "상관은 인과가 아니다(Correlation is not causation)"라는 통계학의 가장 중요한 경고를 깊이 이해합니다.

"상관"이란 쉽게 말하면: 두 변수가 함께 움직이는 경향을 말합니다. 기온이 올라가면 아이스크림 판매량도 올라간다 -- 이것이 양의 상관입니다. 기온이 올라가면 핫초코 판매량은 내려간다 -- 이것이 음의 상관입니다. 기온이 올라가도 책 판매량은 별 변화가 없다 -- 이것은 상관이 거의 없는 경우입니다.

핵심은 "한 변수가 움직일 때 다른 변수도 규칙적으로 따라 움직이는가"입니다.

Interactive 1: Anscombe의 사중주

1973년, 통계학자 Francis Anscombe는 네 개의 데이터셋을 만들었습니다. 이 네 데이터셋은 평균, 분산, 상관계수, 회귀선이 거의 동일합니다. 하지만 산점도는 전혀 다릅니다.

핵심 교훈: 요약 통계량만으로는 데이터의 진짜 모습을 알 수 없습니다. 항상 시각화를 먼저 하세요. 이것은 1973년의 교훈이지만, 오늘날에도 가장 자주 무시되는 원칙입니다.

Dataset I

Dataset II

Dataset III

Dataset IV

X 평균

9.0

Y 평균

7.50

상관계수 r

0.816

회귀선

Y = 3.0 + 0.5X

네 데이터셋의 통계량은 소수 둘째자리까지 동일합니다. 그런데 산점도를 보세요: I은 전형적 선형관계, II는 곡선관계, III는 이상치 하나가 회귀선을 왜곡, IV는 X가 한 곳에 몰린 데이터에 이상치 하나가 상관을 만들어냈습니다.

생각해보기: 만약 Dataset III에서 이상치 한 점을 제거하면 상관계수는 어떻게 변할까요? Dataset IV에서 오른쪽 끝 점 하나를 제거하면? 요약 통계량에만 의존하면 이런 차이를 놓칩니다.

Interactive 2: 상관계수 놀이터

산점도 위에 직접 점을 찍어보세요. Pearson 상관계수(r)가 실시간으로 계산됩니다. r이 어떤 상황에서 높거나 낮은지, 그리고 r의 한계가 무엇인지 체감하세요.

점의 개수

Pearson r

r-squared

설명된 분산 비율

도전 과제:

r > 0.9를 만들되, 직선이 아닌 곡선 관계의 데이터를 찍어보세요. r은 높지만 선형관계가 아닌 경우입니다.
r = 0 (거의)이지만 확실한 패턴이 있는 데이터를 만들어보세요. (힌트: U자형 또는 원형)
5개의 점만으로 r = 0.5 근처를 만들어보세요. 점 하나의 위치를 바꾸면 r이 급변하는 것을 확인하세요.
점을 30개 정도 찍어서 r = 0.7 정도를 만들고, 한쪽 구석에 이상치 하나를 추가해보세요. r이 얼마나 변하나요?

Pearson r의 한계: Pearson 상관계수는 오직 선형 관계의 강도만 측정합니다. 완벽한 곡선 관계(예: U자형, 원형)에서도 r = 0이 될 수 있습니다. 따라서 상관계수를 보고하기 전에 반드시 산점도를 먼저 확인하세요.

Pearson 상관계수 (r):
r = SUM[(Xi - X_bar)(Yi - Y_bar)] / sqrt(SUM[(Xi - X_bar)^2] * SUM[(Yi - Y_bar)^2])

-1 <= r <= 1
r = 1: 완벽한 양의 선형관계 | r = -1: 완벽한 음의 선형관계 | r = 0: 선형관계 없음

Pearson r을 단계별로 이해하기:
(1) 각 데이터 점에서 X의 평균과 Y의 평균을 빼서, "평균에서 얼마나 벗어났는가"를 구합니다.
(2) X가 평균보다 클 때 Y도 평균보다 크면 곱이 양수 (+), X가 클 때 Y가 작으면 곱이 음수 (-)가 됩니다.
(3) 이 곱들을 모두 더하면: 양수끼리 많으면 양의 상관, 음수끼리 많으면 음의 상관, 뒤섞이면 0에 가까워집니다.
(4) 마지막으로 X와 Y 각각의 퍼짐 정도로 나누어 -1과 +1 사이로 표준화합니다.

r 값의 크기 해석:
|r| = 0.0 ~ 0.3: 약한 상관 (두 변수가 거의 독립적으로 움직임)
|r| = 0.3 ~ 0.7: 중간 상관 (함께 움직이는 경향이 있지만 예외도 많음)
|r| = 0.7 ~ 1.0: 강한 상관 (하나를 알면 다른 하나를 꽤 잘 예측할 수 있음)

쉽게 말하면, r은 "두 변수가 직선적으로 얼마나 손발이 맞는가"를 -1에서 +1 사이 숫자 하나로 요약한 것입니다.

Interactive 3: 허위상관 갤러리

실제로 높은 상관계수를 보이지만 인과관계가 전혀 없는 사례들입니다. 각 사례를 보고 "왜 인과가 아닌지" 생각해보세요.

"상관이 높다"가 "원인과 결과"를 의미하지 않는 3가지 예:

아이스크림 판매량과 익사 사고 (r=0.87): 아이스크림이 익사를 일으키는 게 아닙니다. 숨은 변수 "여름 기온"이 둘 다 높이는 것입니다.
소방관 출동 수와 화재 피해 규모 (양의 상관): 소방관이 많이 출동할수록 피해가 크다고 해서, 소방관이 피해를 키우는 것이 아닙니다. 큰 불이 나면 소방관도 많이 출동하고 피해도 큰 것입니다.
한 나라의 초콜릿 소비량과 노벨상 수상자 수 (r=0.79): 초콜릿을 먹는다고 노벨상을 받는 것이 아닙니다. 부유한 나라일수록 초콜릿도 많이 소비하고 연구 인프라도 좋아서 노벨상 수상자가 많은 것입니다.

숨은 제3의 변수 -- 교란변수(Confounding Variable): 위 세 사례에서 "기온", "화재 규모", "국가의 부유함"이 바로 교란변수입니다. 교란변수란, X와 Y 둘 다에 영향을 미치면서 X와 Y 사이에 가짜 상관을 만들어내는 변수입니다.

쉽게 말하면, 두 변수가 함께 움직이는 것처럼 보이는 진짜 이유가 "제3의 숨은 원인" 때문인 경우가 많습니다. 마치 그림자 인형극에서 두 인형이 함께 움직이는 것 같지만, 실은 뒤에서 한 사람이 조종하는 것과 같습니다.

인과 추론의 3가지 조건:

공변(Covariation): X가 변할 때 Y도 변한다 (상관은 이것만 확인).
시간적 선행(Temporal precedence): X의 변화가 Y의 변화보다 먼저 일어난다.
대안 설명의 배제(No confounders): 제3의 변수가 둘 다를 야기한 것이 아니다.

관찰 연구에서는 3번 조건을 완벽하게 충족하기 매우 어렵습니다. 이것이 무작위 통제 실험(RCT)이 인과 추론의 "황금 기준"인 이유입니다.

실습: 각 허위상관 사례에서 "숨겨진 제3의 변수(교란변수)"가 무엇인지 찾아보세요. "설명 보기"를 클릭하면 답을 확인할 수 있습니다.

Interactive 4: 심슨의 역설

전체 데이터를 보면 한 방향의 관계가 보이는데, 집단별로 나누면 관계가 반대 방향으로 뒤집히는 현상입니다. 실제 대학 입시 데이터에서 발생한 유명한 사례를 재현합니다.

심슨의 역설을 한마디로: "전체를 보면 A가 낫지만, 부분을 보면 B가 낫다." 이런 일이 실제로 일어납니다. 데이터를 어떤 수준에서 집계하느냐에 따라 결론이 완전히 뒤집히는 현상입니다.

비유하자면, 학급 전체 평균은 A반이 높은데, 남학생끼리 비교하면 B반이 높고 여학생끼리 비교해도 B반이 높은 경우입니다. 이런 모순이 가능한 이유는 A반에 원래 성적이 높은 학생(예: 여학생)의 비율이 월등히 높기 때문입니다.

시나리오: 대학 입시 성별 차별 논란
한 대학의 전체 합격률: 남성 45%, 여성 30%. 성차별인가? 그런데 학과별로 나눠보면...

학과	남성 지원	남성 합격률	여성 지원	여성 합격률

핵심: 여성이 합격률이 낮은 학과(경쟁이 치열한 학과)에 더 많이 지원했기 때문에 전체적으로는 여성 합격률이 낮아 보였습니다. 학과 내에서는 오히려 여성 합격률이 같거나 더 높았습니다. 데이터를 어떤 수준에서 보느냐에 따라 결론이 뒤집힐 수 있습니다.

실습 과제:

"전체 보기"와 "학과별로 나누기"를 번갈아 클릭하며 추세가 뒤집히는 것을 확인하세요.
아래 표에서 각 학과의 합격률을 비교하세요. 어떤 학과가 가장 경쟁이 치열한가요?
실생활에서 심슨의 역설이 나타날 수 있는 상황을 하나 생각해보세요.

비즈니스 함의: 매출 데이터를 전체로 보면 하락 추세인데, 지역별로 나누면 모든 지역이 성장 중일 수 있습니다 (성장률이 낮은 대형 지역의 비중이 커졌기 때문). "어떤 단위로 데이터를 집계하는가"는 분석 결론을 완전히 바꿀 수 있습니다.

Interactive 5: 상관행렬 탐색기

한국 경제 지표 데이터에서 변수들을 선택하여 상관행렬(히트맵)과 산점도 행렬을 자동 생성합니다. 어떤 변수 쌍이 강한 상관을 보이는지 탐색하세요.

3~6개 변수를 선택하세요

Spearman 순위상관 vs Pearson: Pearson r은 선형 관계만 잡아냅니다. Spearman rho는 데이터를 순위로 바꾼 뒤 상관을 계산합니다. 따라서 단조증가/단조감소 관계(곡선이어도)를 잡아낼 수 있으며, 이상치에도 더 강건합니다. 서열 척도 데이터나 비선형 단조관계가 의심될 때 Spearman을 사용하세요.

실습 과제:

GDP 성장률과 실업률의 상관을 확인하세요. 부호가 음수인가요? 왜 그런가요?
상관이 가장 높은 변수 쌍은 무엇인가요? 그 관계가 인과관계라고 말할 수 있나요?
6개 변수를 모두 선택하고 히트맵의 패턴을 관찰하세요. 변수 그룹이 보이나요?

이 장의 핵심

산점도는 두 변수의 관계를 파악하는 가장 기본적이고 강력한 도구이다.
Pearson r은 선형 관계의 강도와 방향만 측정한다. 곡선 관계는 감지하지 못한다.
항상 시각화를 먼저 하라 (Anscombe의 교훈).
상관은 인과가 아니다 -- 교란변수, 역인과, 우연의 일치가 존재할 수 있다.
심슨의 역설: 집계 수준에 따라 결론이 뒤집힐 수 있다.
Spearman 순위상관은 비선형 단조관계와 서열 데이터에 적합하다.

다음 장 예고: 지금까지 배운 기술통계를 종합하여 한국 경제 데이터를 직접 탐색하는 캡스톤 프로젝트에 도전합니다.

← 목차로 돌아가기