PART 2 · 12장

효과크기와 재현성 위기

p-value를 넘어서

p < 0.05라고 다 중요한가?

10만 명을 조사하면 체중 0.1kg 차이도 통계적으로 유의하다. 하지만 그게 다이어트 효과라고 말할 수 있는가? 반대로, 25명만 조사하면 체중 5kg 차이가 있어도 p = 0.08로 "유의하지 않다"고 나올 수 있다.

유의하다(significant)는 중요하다(important)와 같은 말이 아니다. 통계적 유의성은 소음(noise)에서 신호(signal)를 구분할 뿐이다. 신호의 크기가 얼마나 큰지 -- 이것이 효과크기(effect size)이다.

이 장에서는 효과크기의 개념을 시각적으로 체험하고, 왜 수많은 연구가 재현에 실패하는지를 직접 시뮬레이션하며, 검정력 분석을 통해 적절한 표본크기를 결정하는 법을 배운다.

비유: p-value는 "이 소리가 진짜 소리인가, 아니면 바람 소리인가?"를 판별하는 것이고, 효과크기는 "이 소리가 속삭임인가, 고함인가?"를 측정하는 것이다. 소리가 진짜라 해도 속삭임 수준이면 실질적으로 의미 없을 수 있다.

"통계적으로 유의하다" 와 "실제로 중요하다"는 완전히 다른 말이다:
제약회사가 다이어트 약을 개발했다. 10만 명을 대상으로 임상시험을 했더니, 약을 먹은 그룹이 위약 그룹보다 평균 0.1kg 더 빠졌다. p = 0.001로 "매우 유의"하다.

하지만 잠깐 -- 0.1kg이 뭔가? 아침에 물 한 잔 마시기 전후의 차이보다 작다. 어떤 환자도 이 약을 먹고 "살이 빠졌다"고 느끼지 못할 것이다. p-value는 극도로 작지만, 실질적 의미는 제로에 가깝다.

쉽게 말하면: 돋보기(큰 표본)로 보면 먼지(아주 작은 차이)도 보인다. 하지만 먼지가 보인다고 해서 그것이 중요한 것은 아니다. 중요한 것은 "얼마나 큰 차이인가?"이며, 이것을 측정하는 것이 효과크기이다.

비즈니스에서의 함정: 빅데이터 시대에 표본 크기가 수십만, 수백만인 경우가 흔하다. 이때 거의 모든 차이가 "통계적으로 유의"해진다. 예: 웹사이트 A/B 테스트에서 전환율 0.01%p 차이도 n=100만이면 p < 0.05가 된다. 하지만 전환율 0.01%p 개선을 위해 대대적인 UI 변경에 투자할 가치가 있는가? 효과크기와 실질적 비용-편익을 반드시 함께 고려해야 한다.

실습 1: 통계적 유의성 vs 실질적 유의성

아래 두 시나리오를 비교해 보자. 표본크기(n)와 효과크기(d)를 슬라이더로 조절하면서 p-값이 어떻게 변하는지 관찰하라. 어떤 연구가 더 의미 있는가?

두 시나리오 비교: 시나리오 A는 대규모 표본에서 아주 작은 효과를 검출한 경우, 시나리오 B는 소규모 표본에서 큰 효과를 발견했지만 유의하지 않은 경우이다. 슬라이더를 조절하면서 "유의하다 = 중요하다"라는 공식이 성립하지 않음을 직접 확인하라.

시나리오 A: 대규모 + 작은 효과

표본크기 (n): 50000

효과크기 (d): 0.05

Cohen's d

p-값

시나리오 B: 소규모 + 큰 효과

표본크기 (n): 25

효과크기 (d): 1.20

Cohen's d

p-값

핵심 교훈: 표본크기가 충분히 크면 무의미한 차이도 "통계적으로 유의"해진다. 반대로 표본이 작으면 의미 있는 차이도 "유의하지 않다"로 나올 수 있다. 따라서 p-값만 보고 판단하는 것은 위험하며, 반드시 효과크기를 함께 보고해야 한다.

실습 2: Cohen's d 탐색기

Cohen's d는 두 그룹 평균 차이를 표준편차 단위로 표현한 것이다. d = 0이면 두 분포가 완전히 겹치고, d가 커질수록 분포가 떨어진다.

Cohen's d를 일상 언어로 이해하기 -- "두 그룹이 얼마나 겹치는가":
키를 예로 들어보자. 한국 성인 남성의 평균 키는 약 174cm, 여성은 약 161cm이다. 남성과 여성의 키 분포를 겹쳐 그리면 상당 부분이 겹친다 (170cm 여성도 있고, 165cm 남성도 있다).

Cohen's d는 이 "겹침 정도"를 숫자로 표현한다:
- d = 0.2 (작음): 두 분포가 거의 다 겹친다. 개인 수준에서는 차이를 거의 느끼지 못한다. "현미경으로 봐야 보이는 차이."
- d = 0.5 (보통): 두 분포가 상당 부분 겹치지만, 차이가 눈에 띈다. "사람들이 알아차릴 수 있는 차이."
- d = 0.8 (큼): 두 분포가 확실히 분리되기 시작한다. "누가 봐도 다른 차이."
- d > 1.5: 두 분포가 거의 겹치지 않는다. "완전히 다른 세상."

쉽게 말하면: d는 "한 그룹에서 무작위로 뽑은 사람이 다른 그룹의 평균보다 높을 확률"과 직결된다. d = 0.8이면 한 그룹의 79%가 다른 그룹의 평균을 넘는다.

Cohen's d = (M₁ - M₂) / SD_pooled
small = 0.2 | medium = 0.5 | large = 0.8 (Cohen, 1988)

슬라이더를 움직여 d를 조절해 보라. 두 정규분포가 얼마나 겹치는지 시각적으로 관찰하고, 각 수준(작음, 보통, 큼)에서의 실제 사례를 확인하라.

Cohen's d: 0.50

Cohen's d

효과크기 수준

분포 겹침 비율

% overlap

실제 사례로 이해하기: d = 0.2 (작음): 비타민C 복용이 감기 지속일수에 미치는 효과 (약 0.5일 단축). d = 0.5 (보통): 성별 간 수학 불안 점수 차이. d = 0.8 (큼): 인지행동치료가 우울증에 미치는 효과. d > 1.0: 전문 운동선수와 일반인의 반응속도 차이.

실습 3: 재현성 게임

2015년 Open Science Collaboration이 심리학 연구 100편을 재현한 결과, 원래 유의했던 결과 중 36%만 재현에 성공했다. 왜 이런 일이 발생하는가?

재현성 위기의 주범: (1) 작은 표본 + 작은 효과: 통계적 검정력이 부족하여 우연에 의한 유의한 결과가 출판됨. (2) p-해킹: 유의한 결과가 나올 때까지 분석 조건을 바꾸는 행위. (3) 출판 편향: 유의한 결과만 저널에 실리고, 유의하지 않은 결과는 서랍에 묻힘.

"왜 과학 논문의 절반이 재현되지 않는가?" -- 재현성 위기 상세 설명:

2015년, 270명의 연구자가 협력하여 심리학 주요 논문 100편을 동일 조건에서 반복 실험했다. 결과는 충격적이었다: 원래 "유의하다"고 보고된 결과 중 36%만 재현에 성공했다. 이와 비슷하게 암 생물학(2012), 경제학(2016) 등에서도 낮은 재현율이 보고되었다.

왜 이런 일이 벌어지는가?
1. 낮은 검정력: 표본이 작아서 "진짜 효과"를 안정적으로 잡아내지 못한다. 실험마다 결과가 요동치므로, 운 좋게 유의하게 나온 한 번의 결과가 출판된다.
2. 출판 편향 ("서랍 문제"): "유의하지 않음"이라는 결과는 학술지에 실리기 어렵다. 같은 주제로 10팀이 연구해서 9팀은 효과를 발견하지 못하고, 1팀만 우연히 p < 0.05를 얻어 출판하면? 세상에는 "효과가 있다"는 논문만 남게 된다.
3. p-해킹: 데이터를 이리저리 주물러서 유의한 결과를 "만들어내는" 관행.

쉽게 말하면: 동전을 100번 던져서 앞면이 55번 나온 것을 "이 동전은 편향됐다(p < 0.05)"라고 출판하고, 다음에 다시 100번 던졌더니 49번 나와서 "재현 실패"가 되는 것과 같다. 처음부터 효과가 없었거나, 효과가 너무 작아서 작은 표본으로는 안정적으로 검출할 수 없었던 것이다.

10개의 연구가 표시된다. 각 연구의 표본크기, 효과크기, p-값을 보고 "재현 성공"할 것이라고 생각하는 연구를 선택하라. 그런 다음 "재현 실행" 버튼을 누르면 실제 시뮬레이션 결과가 나온다.

비즈니스 시사점: A/B 테스트에서 표본이 작은데 "유의하다"라는 결과를 얻었다면, 다음 캠페인에서 같은 효과가 나타나지 않을 확률이 높다. 비용이 큰 의사결정일수록 효과크기와 검정력을 함께 검토해야 한다.

실습 4: 검정력 분석 계산기

검정력(power)이란 실제로 효과가 있을 때 이를 검출할 확률이다. 관례적으로 80% 이상의 검정력을 권장한다. 검정력은 세 가지에 의해 결정된다: (1) 효과크기, (2) 유의수준, (3) 표본크기.

"실험 전에 얼마나 많은 데이터가 필요한지 계산하기" -- 검정력 분석의 핵심:

연구를 시작하기 전에 "몇 명을 조사해야 하는가?"를 결정하는 것이 검정력 분석(power analysis)이다. 이것을 건너뛰면 두 가지 나쁜 결과 중 하나가 생긴다:
- 표본이 너무 적으면: 진짜 효과가 있어도 발견하지 못한다 (시간과 돈 낭비)
- 표본이 너무 많으면: 의미 없는 작은 차이까지 "유의하다"고 나온다 (자원 낭비 + 과잉 해석 위험)

일상 비유: 밤에 열쇠를 잃어버렸다고 하자.
- 손전등이 너무 약하면(표본이 작으면): 열쇠가 바로 앞에 있어도 못 찾는다.
- 서치라이트를 동원하면(표본이 너무 크면): 열쇠는 찾겠지만, 모래알까지 다 보여서 "이것도 열쇠인가?" 헷갈린다.
- 적절한 밝기의 손전등(적정 표본)이 가장 효율적이다.

쉽게 말하면: 검정력 분석은 "효과를 안정적으로 발견하기 위한 최소한의 데이터 양"을 알려주는 도구이다. 논문 심사위원이나 연구비 심사 기관이 "표본 크기의 근거"를 요구하는 이유가 바로 이것이다.

검정력 = P(H₀ 기각 | H₁ 참)
검정력 = 1 - beta (제2종 오류 확률)

원하는 효과크기와 유의수준을 입력하면 필요한 표본크기가 자동 계산된다. 검정력 곡선에서 표본크기에 따라 검정력이 어떻게 변하는지 확인하라.

효과크기 (d): 유의수준 (alpha): 목표 검정력:

충격적 사실: 2000년대 이전 출판된 심리학 연구의 약 80%가 통계적 검정력이 50% 미만이었다 (Cohen, 1962; Sedlmeier & Gigerenzer, 1989). 즉, 실제 효과가 있더라도 절반 이상의 확률로 놓치는 연구 설계였다. 이는 재현성 위기의 근본 원인 중 하나이다.

효과크기 지표 종합 정리

효과크기 지표는 검정 유형에 따라 다르다. 아래 표는 주요 검정별로 사용되는 효과크기 지표와 기준값을 정리한 것이다.

검정 유형	효과크기 지표	작음	보통	큼	공식
t-검정	Cohen's d	0.2	0.5	0.8	(M1 - M2) / SD_pooled
상관분석	r (상관계수)	0.1	0.3	0.5	Pearson r
ANOVA	eta-squared (η²)	0.01	0.06	0.14	SS_between / SS_total
카이제곱	Cramer's V	0.1	0.3	0.5	sqrt(chi2 / (n * min(r-1, c-1)))
회귀분석	R²	0.02	0.13	0.26	SS_regression / SS_total
회귀분석	Cohen's f²	0.02	0.15	0.35	R² / (1 - R²)

보고 가이드라인: APA(미국심리학회) 매뉴얼은 모든 통계 검정에 효과크기를 보고할 것을 권장한다. "p < 0.05"만으로는 충분하지 않으며, "d = 0.45, 95% CI [0.12, 0.78]"처럼 효과크기와 신뢰구간을 함께 보고하는 것이 표준이다.

이 장의 핵심

통계적 유의성(p < 0.05)과 실질적 중요성(effect size)은 별개의 개념이다.
Cohen's d는 두 그룹 차이를 표준편차 단위로 표현한다: 0.2(작음), 0.5(보통), 0.8(큼).
재현성 위기의 주요 원인은 낮은 검정력, p-해킹, 출판 편향이다.
검정력 분석으로 연구 시작 전에 필요한 표본크기를 산출해야 한다.
효과크기와 신뢰구간을 함께 보고하는 것이 현대 통계 보고의 표준이다.

다음 장 예고: 로또 데이터라는 재미있는 소재를 통해 확률, 가설검정, 효과크기를 종합적으로 체험하는 시간을 갖는다.

← 목차로 돌아가기