효과크기와 재현성 위기
p-value를 넘어서
p < 0.05라고 다 중요한가?
10만 명을 조사하면 체중 0.1kg 차이도 통계적으로 유의하다. 하지만 그게 다이어트 효과라고 말할 수 있는가? 반대로, 25명만 조사하면 체중 5kg 차이가 있어도 p = 0.08로 "유의하지 않다"고 나올 수 있다.
유의하다(significant)는 중요하다(important)와 같은 말이 아니다. 통계적 유의성은 소음(noise)에서 신호(signal)를 구분할 뿐이다. 신호의 크기가 얼마나 큰지 -- 이것이 효과크기(effect size)이다.
이 장에서는 효과크기의 개념을 시각적으로 체험하고, 왜 수많은 연구가 재현에 실패하는지를 직접 시뮬레이션하며, 검정력 분석을 통해 적절한 표본크기를 결정하는 법을 배운다.
제약회사가 다이어트 약을 개발했다. 10만 명을 대상으로 임상시험을 했더니, 약을 먹은 그룹이 위약 그룹보다 평균 0.1kg 더 빠졌다. p = 0.001로 "매우 유의"하다.
하지만 잠깐 -- 0.1kg이 뭔가? 아침에 물 한 잔 마시기 전후의 차이보다 작다. 어떤 환자도 이 약을 먹고 "살이 빠졌다"고 느끼지 못할 것이다. p-value는 극도로 작지만, 실질적 의미는 제로에 가깝다.
쉽게 말하면: 돋보기(큰 표본)로 보면 먼지(아주 작은 차이)도 보인다. 하지만 먼지가 보인다고 해서 그것이 중요한 것은 아니다. 중요한 것은 "얼마나 큰 차이인가?"이며, 이것을 측정하는 것이 효과크기이다.
실습 1: 통계적 유의성 vs 실질적 유의성
아래 두 시나리오를 비교해 보자. 표본크기(n)와 효과크기(d)를 슬라이더로 조절하면서 p-값이 어떻게 변하는지 관찰하라. 어떤 연구가 더 의미 있는가?
시나리오 A: 대규모 + 작은 효과
시나리오 B: 소규모 + 큰 효과
실습 2: Cohen's d 탐색기
Cohen's d는 두 그룹 평균 차이를 표준편차 단위로 표현한 것이다. d = 0이면 두 분포가 완전히 겹치고, d가 커질수록 분포가 떨어진다.
키를 예로 들어보자. 한국 성인 남성의 평균 키는 약 174cm, 여성은 약 161cm이다. 남성과 여성의 키 분포를 겹쳐 그리면 상당 부분이 겹친다 (170cm 여성도 있고, 165cm 남성도 있다).
Cohen's d는 이 "겹침 정도"를 숫자로 표현한다:
- d = 0.2 (작음): 두 분포가 거의 다 겹친다. 개인 수준에서는 차이를 거의 느끼지 못한다. "현미경으로 봐야 보이는 차이."
- d = 0.5 (보통): 두 분포가 상당 부분 겹치지만, 차이가 눈에 띈다. "사람들이 알아차릴 수 있는 차이."
- d = 0.8 (큼): 두 분포가 확실히 분리되기 시작한다. "누가 봐도 다른 차이."
- d > 1.5: 두 분포가 거의 겹치지 않는다. "완전히 다른 세상."
쉽게 말하면: d는 "한 그룹에서 무작위로 뽑은 사람이 다른 그룹의 평균보다 높을 확률"과 직결된다. d = 0.8이면 한 그룹의 79%가 다른 그룹의 평균을 넘는다.
small = 0.2 | medium = 0.5 | large = 0.8 (Cohen, 1988)
실습 3: 재현성 게임
2015년 Open Science Collaboration이 심리학 연구 100편을 재현한 결과, 원래 유의했던 결과 중 36%만 재현에 성공했다. 왜 이런 일이 발생하는가?
2015년, 270명의 연구자가 협력하여 심리학 주요 논문 100편을 동일 조건에서 반복 실험했다. 결과는 충격적이었다: 원래 "유의하다"고 보고된 결과 중 36%만 재현에 성공했다. 이와 비슷하게 암 생물학(2012), 경제학(2016) 등에서도 낮은 재현율이 보고되었다.
왜 이런 일이 벌어지는가?
1. 낮은 검정력: 표본이 작아서 "진짜 효과"를 안정적으로 잡아내지 못한다. 실험마다 결과가 요동치므로, 운 좋게 유의하게 나온 한 번의 결과가 출판된다.
2. 출판 편향 ("서랍 문제"): "유의하지 않음"이라는 결과는 학술지에 실리기 어렵다. 같은 주제로 10팀이 연구해서 9팀은 효과를 발견하지 못하고, 1팀만 우연히 p < 0.05를 얻어 출판하면? 세상에는 "효과가 있다"는 논문만 남게 된다.
3. p-해킹: 데이터를 이리저리 주물러서 유의한 결과를 "만들어내는" 관행.
쉽게 말하면: 동전을 100번 던져서 앞면이 55번 나온 것을 "이 동전은 편향됐다(p < 0.05)"라고 출판하고, 다음에 다시 100번 던졌더니 49번 나와서 "재현 실패"가 되는 것과 같다. 처음부터 효과가 없었거나, 효과가 너무 작아서 작은 표본으로는 안정적으로 검출할 수 없었던 것이다.
실습 4: 검정력 분석 계산기
검정력(power)이란 실제로 효과가 있을 때 이를 검출할 확률이다. 관례적으로 80% 이상의 검정력을 권장한다. 검정력은 세 가지에 의해 결정된다: (1) 효과크기, (2) 유의수준, (3) 표본크기.
연구를 시작하기 전에 "몇 명을 조사해야 하는가?"를 결정하는 것이 검정력 분석(power analysis)이다. 이것을 건너뛰면 두 가지 나쁜 결과 중 하나가 생긴다:
- 표본이 너무 적으면: 진짜 효과가 있어도 발견하지 못한다 (시간과 돈 낭비)
- 표본이 너무 많으면: 의미 없는 작은 차이까지 "유의하다"고 나온다 (자원 낭비 + 과잉 해석 위험)
일상 비유: 밤에 열쇠를 잃어버렸다고 하자.
- 손전등이 너무 약하면(표본이 작으면): 열쇠가 바로 앞에 있어도 못 찾는다.
- 서치라이트를 동원하면(표본이 너무 크면): 열쇠는 찾겠지만, 모래알까지 다 보여서 "이것도 열쇠인가?" 헷갈린다.
- 적절한 밝기의 손전등(적정 표본)이 가장 효율적이다.
쉽게 말하면: 검정력 분석은 "효과를 안정적으로 발견하기 위한 최소한의 데이터 양"을 알려주는 도구이다. 논문 심사위원이나 연구비 심사 기관이 "표본 크기의 근거"를 요구하는 이유가 바로 이것이다.
검정력 = 1 - beta (제2종 오류 확률)
효과크기 지표 종합 정리
효과크기 지표는 검정 유형에 따라 다르다. 아래 표는 주요 검정별로 사용되는 효과크기 지표와 기준값을 정리한 것이다.
| 검정 유형 | 효과크기 지표 | 작음 | 보통 | 큼 | 공식 |
|---|---|---|---|---|---|
| t-검정 | Cohen's d | 0.2 | 0.5 | 0.8 | (M1 - M2) / SD_pooled |
| 상관분석 | r (상관계수) | 0.1 | 0.3 | 0.5 | Pearson r |
| ANOVA | eta-squared (η²) | 0.01 | 0.06 | 0.14 | SS_between / SS_total |
| 카이제곱 | Cramer's V | 0.1 | 0.3 | 0.5 | sqrt(chi2 / (n * min(r-1, c-1))) |
| 회귀분석 | R² | 0.02 | 0.13 | 0.26 | SS_regression / SS_total |
| 회귀분석 | Cohen's f² | 0.02 | 0.15 | 0.35 | R² / (1 - R²) |
- 통계적 유의성(p < 0.05)과 실질적 중요성(effect size)은 별개의 개념이다.
- Cohen's d는 두 그룹 차이를 표준편차 단위로 표현한다: 0.2(작음), 0.5(보통), 0.8(큼).
- 재현성 위기의 주요 원인은 낮은 검정력, p-해킹, 출판 편향이다.
- 검정력 분석으로 연구 시작 전에 필요한 표본크기를 산출해야 한다.
- 효과크기와 신뢰구간을 함께 보고하는 것이 현대 통계 보고의 표준이다.
다음 장 예고: 로또 데이터라는 재미있는 소재를 통해 확률, 가설검정, 효과크기를 종합적으로 체험하는 시간을 갖는다.