가설검정의 논리
p-value는 무엇을 말하는가?
신약이 효과가 있는지 어떻게 증명하는가?
제약회사가 새로운 두통약을 개발했습니다. 임상시험에서 약을 먹은 그룹은 평균 30분 만에 두통이 사라졌고, 위약(가짜 약)을 먹은 그룹은 평균 45분이 걸렸습니다. 이 15분의 차이는 "진짜 효과"인가, 아니면 "우연"인가?
직관적으로는 "효과가 있다"고 증명하면 될 것 같습니다. 하지만 통계학은 다른 접근을 택합니다 -- "효과가 없다"고 가정하고, 이 가정이 데이터와 모순되는지를 검증합니다. 이것이 가설검정(hypothesis testing)의 핵심 논리입니다.
- 피고인은 무죄로 추정
- 검사가 증거를 모아서 유죄를 입증
- 증거가 압도적이면 유죄 선고
- 증거 부족하면 무죄 방면
- 무죄 방면 = "결백이 증명됨"이 아님
- 영가설(H0)은 참으로 가정
- 연구자가 데이터를 모아서 H0 반박
- 데이터가 압도적이면 H0 기각
- 데이터 부족하면 H0 기각 실패
- 기각 실패 = "효과 없음이 확인됨"이 아님
가설검정의 5단계
가설 설정
H0 (영가설): "효과가 없다", "차이가 없다" -- 현재 상태 유지
H1 (대립가설): "효과가 있다", "차이가 있다" -- 증명하고 싶은 것
유의수준 결정
alpha = 0.05가 관례입니다. "무고한 사람을 유죄로 판결할 위험"을 5% 이하로 통제하겠다는 뜻입니다.
왜 하필 0.05일까? 1920년대 통계학자 R.A. Fisher가 "편리한 기준"으로 제안한 것이지,
자연 법칙이나 수학적 필연이 아닙니다. 분야에 따라 0.01이나 0.001을 쓰기도 합니다.
입자물리학에서는 새 입자를 발견했다고 주장하려면 "5 sigma"(p < 0.0000003)를 요구합니다!
검정 통계량 계산
데이터를 하나의 숫자(검정통계량)로 요약합니다. 예: z-통계량, t-통계량.
p-value 계산
"H0이 참이라면, 이 데이터(또는 더 극단적인 데이터)를 관찰할 확률"이 p-value입니다.
결론
p-value < alpha이면 H0 기각 ("통계적으로 유의한 차이가 있다").
p-value >= alpha이면 H0 기각 실패 ("유의한 차이를 발견하지 못했다").
p-value는 "영가설(H0)이 참이라고 가정했을 때, 지금 관찰한 데이터만큼 극단적이거나 더 극단적인 결과가 나올 확률"입니다.
쉽게 말하면: "만약 정말로 효과가 없다면, 이 정도 결과가 순전히 운으로 나올 확률이 얼마나 되는가?"입니다. 그 확률이 아주 낮으면(예: 5% 미만) "이건 우연이라고 보기 어렵다"고 판단하는 것입니다.
일상 비유: 친구가 동전 던지기에서 10번 연속 앞면을 나오게 했다고 합시다. "공정한 동전이라면 10번 연속 앞면이 나올 확률은 0.1%도 안 돼. 이건 우연이 아니야!"라고 생각하는 것 -- 이것이 p-value의 직관입니다.
많은 사람이 p < 0.05를 "효과가 있을 확률이 95%"라고 오해합니다. 이것은 완전히 틀린 해석입니다.
p < 0.05의 올바른 의미: "H0이 참일 때, 이 정도로 극단적인 결과가 우연히 나올 확률이 5% 미만이다."
즉, "효과가 있을 확률"이 아니라, "우연의 산물일 가능성이 낮다"는 뜻입니다. 미묘하지만 매우 중요한 차이입니다.
실습 1: 동전 공정성 검정기
동전을 반복해서 던집니다. 동전이 공정하다면(H0: p = 0.5), 앞면 비율은 0.5 근처에 있어야 합니다. 던질수록 p-value가 어떻게 변하는지 관찰하세요. 때로는 공정한 동전도 우연히 p < 0.05가 되기도 합니다!
실습 2: 제1종 오류와 제2종 오류의 트레이드오프
가설검정에서는 두 가지 종류의 실수가 가능합니다.
제1종 오류 (alpha) -- 무고한 사람을 유죄로
H0이 참인데 기각하는 것.
재판 비유: 실제로는 무고한 사람인데, 증거를 잘못 해석해서 유죄 선고를 내리는 것.
현실 예시: 신약에 효과가 없는데 "효과 있다"고 승인하면, 환자들이 효과 없는 약을 복용하게 됩니다. 부작용만 남고 치료 효과는 없는 최악의 상황이 됩니다.
확률 = alpha (보통 0.05)
제2종 오류 (beta) -- 진짜 범인을 놓침
H0이 거짓인데 기각하지 못하는 것.
재판 비유: 실제 범인인데 증거가 부족해서 무죄 방면하는 것.
현실 예시: 정말 효과가 있는 항암제인데 "효과 없다"고 판정하면, 암 환자들이 생명을 구할 수 있는 약을 쓰지 못하게 됩니다.
확률 = beta. 검정력(Power) = 1 - beta
상황에 따라 다릅니다. 형사 재판에서는 "무고한 사람을 감옥에 보내는 것(Type I)"이 더 심각하므로 증거 기준이 매우 높습니다 ("합리적 의심의 여지가 없을 정도로"). 반면 전염병 검사에서는 "감염자를 놓치는 것(Type II)"이 더 위험하므로 기준을 느슨하게 합니다 (양성 판정을 넉넉하게).
쉽게 말하면: 제1종 오류는 "허위 경보"이고, 제2종 오류는 "탐지 실패"입니다. 공항 보안검색에서 일반인을 잡아세우는 것(Type I)과, 진짜 위험인물을 통과시키는 것(Type II) -- 둘 다 줄이려면 검색 기술(표본 크기)을 높여야 합니다.
| H0 참 (무고) | H0 거짓 (범인) | |
|---|---|---|
| H0 기각 (유죄) | 제1종 오류 (alpha) | 올바른 결정 (Power) |
| H0 기각 실패 (무죄) | 올바른 결정 | 제2종 오류 (beta) |
실습 3: p-해킹 시뮬레이터
20개의 완전히 무작위인 변수가 있습니다 (어떤 것도 결과에 영향을 주지 않습니다). 각 변수에 대해 t-검정을 실시하면, 과연 "유의한 결과(p < 0.05)"가 나올까요?
주사위를 20번 던지면서 "6이 나오면 내가 초능력이 있는 것"이라고 합시다. 20번 중 한두 번은 6이 나올 겁니다. 그 순간만 촬영해서 "나는 초능력자"라고 유튜브에 올리는 것 -- 이것이 p-해킹입니다.
학계에서의 p-해킹 수법들:
- "유의한 결과가 나올 때까지" 데이터를 추가로 수집한다
- 여러 변수를 검정하고, 유의한 것만 보고한다
- 이상치를 제거했다 포함했다 하면서 p < 0.05가 되는 조합을 찾는다
- 하위 그룹을 이리저리 나누어 유의한 조합을 찾는다
쉽게 말하면: 활을 먼저 쏘고 나서 화살이 꽂힌 곳에 과녁을 그리는 것입니다.
여러 검정을 동시에 수행할 때는 본페로니 보정(Bonferroni correction)을 적용합니다. 20개 검정이면 alpha를 0.05/20 = 0.0025로 낮춥니다. 이렇게 하면 거짓 양성을 대폭 줄일 수 있습니다. 또한 사전에 연구 계획을 등록(pre-registration)하여 p-해킹을 방지합니다.
실습 4: 단계별 가설검정 가이드
실제 시나리오를 선택하고, 가설검정의 5단계를 직접 밟아가며 결론을 내려보세요.
p-value가 전부가 아니다
p < 0.05가 나왔다고 해서 연구가 끝난 것이 아닙니다. 통계적 유의성에는 중요한 한계가 있습니다.
통계적 유의성 != 실질적 중요성
n=100,000이면 체중 0.1kg 차이도 p < 0.05가 됩니다. 하지만 0.1kg이 의학적으로 의미가 있나요? 효과 크기(effect size)를 반드시 함께 보고해야 합니다.
유의하지 않음 != 효과 없음
p = 0.08이면 "유의하지 않다"이지만, 효과가 없다는 증거가 아닙니다. 표본이 작아서 효과를 탐지하지 못했을 수 있습니다. 부재의 증거(evidence of absence)가 아닙니다.
- 가설검정은 "효과 없다(H0)"를 가정하고, 데이터로 이를 반박하는 논리이다.
- p-value는 "H0이 참일 때, 현재 데이터 이상으로 극단적인 결과를 관찰할 확률"이다.
- p < alpha이면 H0 기각, p >= alpha이면 H0 기각 실패 (효과 없음의 증명이 아님).
- 제1종 오류(alpha)와 제2종 오류(beta)는 트레이드오프 관계이며, 표본을 늘려야 둘 다 줄일 수 있다.
- 다중 검정은 거짓 양성을 유발하므로 보정이 필요하다 (p-해킹 주의).
- 통계적 유의성과 실질적 중요성은 별개이며, 효과 크기와 신뢰구간을 함께 보고해야 한다.
다음 장 예고: 8-10장에서 배운 표본추출, 신뢰구간, 가설검정을 종합하여 실제 데이터에 적용하는 캡스톤 프로젝트가 기다리고 있습니다.