PART 2 · 10장

가설검정의 논리

p-value는 무엇을 말하는가?

신약이 효과가 있는지 어떻게 증명하는가?

제약회사가 새로운 두통약을 개발했습니다. 임상시험에서 약을 먹은 그룹은 평균 30분 만에 두통이 사라졌고, 위약(가짜 약)을 먹은 그룹은 평균 45분이 걸렸습니다. 이 15분의 차이는 "진짜 효과"인가, 아니면 "우연"인가?

직관적으로는 "효과가 있다"고 증명하면 될 것 같습니다. 하지만 통계학은 다른 접근을 택합니다 -- "효과가 없다"고 가정하고, 이 가정이 데이터와 모순되는지를 검증합니다. 이것이 가설검정(hypothesis testing)의 핵심 논리입니다.

재판 비유로 완전히 이해하기: 가설검정은 법정 재판과 놀라울 정도로 닮아 있습니다. 이 비유를 머릿속에 넣어두면 가설검정의 논리가 한 번에 이해됩니다.

법정 재판
- 피고인은 무죄로 추정
- 검사가 증거를 모아서 유죄를 입증
- 증거가 압도적이면 유죄 선고
- 증거 부족하면 무죄 방면
- 무죄 방면 = "결백이 증명됨"이 아님

가설검정
- 영가설(H0)은 참으로 가정
- 연구자가 데이터를 모아서 H0 반박
- 데이터가 압도적이면 H0 기각
- 데이터 부족하면 H0 기각 실패
- 기각 실패 = "효과 없음이 확인됨"이 아님

쉽게 말하면: 연구자는 검사 역할입니다. "효과가 있다"는 것을 증명하고 싶지만, 먼저 "효과가 없다(H0)"고 가정한 뒤, 데이터라는 증거를 들이밀어 그 가정을 무너뜨려야 합니다. 증거가 부족하다고 피고인이 정말 무죄인 것은 아니듯, "H0을 기각하지 못했다"는 "효과가 없음을 증명했다"와 전혀 다른 말입니다.

가설검정의 5단계

가설 설정

H0 (영가설): "효과가 없다", "차이가 없다" -- 현재 상태 유지
H1 (대립가설): "효과가 있다", "차이가 있다" -- 증명하고 싶은 것

유의수준 결정

alpha = 0.05가 관례입니다. "무고한 사람을 유죄로 판결할 위험"을 5% 이하로 통제하겠다는 뜻입니다.
왜 하필 0.05일까? 1920년대 통계학자 R.A. Fisher가 "편리한 기준"으로 제안한 것이지, 자연 법칙이나 수학적 필연이 아닙니다. 분야에 따라 0.01이나 0.001을 쓰기도 합니다. 입자물리학에서는 새 입자를 발견했다고 주장하려면 "5 sigma"(p < 0.0000003)를 요구합니다!

검정 통계량 계산

데이터를 하나의 숫자(검정통계량)로 요약합니다. 예: z-통계량, t-통계량.

p-value 계산

"H0이 참이라면, 이 데이터(또는 더 극단적인 데이터)를 관찰할 확률"이 p-value입니다.

결론

p-value < alpha이면 H0 기각 ("통계적으로 유의한 차이가 있다").
p-value >= alpha이면 H0 기각 실패 ("유의한 차이를 발견하지 못했다").

p-value = P(현재 데이터 또는 더 극단적인 데이터 | H0이 참)

p-value란 무엇인가?
p-value는 "영가설(H0)이 참이라고 가정했을 때, 지금 관찰한 데이터만큼 극단적이거나 더 극단적인 결과가 나올 확률"입니다.

쉽게 말하면: "만약 정말로 효과가 없다면, 이 정도 결과가 순전히 운으로 나올 확률이 얼마나 되는가?"입니다. 그 확률이 아주 낮으면(예: 5% 미만) "이건 우연이라고 보기 어렵다"고 판단하는 것입니다.

일상 비유: 친구가 동전 던지기에서 10번 연속 앞면을 나오게 했다고 합시다. "공정한 동전이라면 10번 연속 앞면이 나올 확률은 0.1%도 안 돼. 이건 우연이 아니야!"라고 생각하는 것 -- 이것이 p-value의 직관입니다.

"p < 0.05의 의미"를 정확하게 이해하기:
많은 사람이 p < 0.05를 "효과가 있을 확률이 95%"라고 오해합니다. 이것은 완전히 틀린 해석입니다.

p < 0.05의 올바른 의미: "H0이 참일 때, 이 정도로 극단적인 결과가 우연히 나올 확률이 5% 미만이다."

즉, "효과가 있을 확률"이 아니라, "우연의 산물일 가능성이 낮다"는 뜻입니다. 미묘하지만 매우 중요한 차이입니다.

"p-value가 작다 = 효과가 크다"는 틀린 해석입니다. p-value는 효과의 크기가 아니라, H0 하에서 데이터의 "놀라움 정도"를 측정합니다. 표본이 매우 크면 아주 작은 차이도 유의하게 나올 수 있습니다. 통계적 유의성과 실질적 중요성은 별개입니다.

실습 1: 동전 공정성 검정기

동전을 반복해서 던집니다. 동전이 공정하다면(H0: p = 0.5), 앞면 비율은 0.5 근처에 있어야 합니다. 던질수록 p-value가 어떻게 변하는지 관찰하세요. 때로는 공정한 동전도 우연히 p < 0.05가 되기도 합니다!

실험 계획: (1) "공정한 동전"으로 50번 던져보세요. p-value가 0.05 아래로 내려가는 순간이 있나요? (2) "편향 동전(60%)"으로 바꿔보세요. 몇 번 던져야 편향이 "발각"되나요? (3) "100번 실험" 버튼으로 공정한 동전을 100번 실험해보세요. 몇 번이나 p < 0.05가 되나요?

동전 종류:

동전 던지기 결과

아직 던지지 않았습니다.

p-value 변화 추이

총 던진 횟수

앞면 횟수

앞면 비율

p-value

H0: p=0.5

Type I 오류 체험: 공정한 동전을 100번 실험하면, 약 5번은 p < 0.05가 됩니다. 이것이 제1종 오류(Type I Error)입니다 -- 실제로 H0이 참인데 기각해버리는 것. 유의수준 alpha = 0.05는 바로 이 오류율의 상한입니다.

실습 2: 제1종 오류와 제2종 오류의 트레이드오프

가설검정에서는 두 가지 종류의 실수가 가능합니다.

제1종 오류 (alpha) -- 무고한 사람을 유죄로

H0이 참인데 기각하는 것.
재판 비유: 실제로는 무고한 사람인데, 증거를 잘못 해석해서 유죄 선고를 내리는 것.
현실 예시: 신약에 효과가 없는데 "효과 있다"고 승인하면, 환자들이 효과 없는 약을 복용하게 됩니다. 부작용만 남고 치료 효과는 없는 최악의 상황이 됩니다.
확률 = alpha (보통 0.05)

제2종 오류 (beta) -- 진짜 범인을 놓침

H0이 거짓인데 기각하지 못하는 것.
재판 비유: 실제 범인인데 증거가 부족해서 무죄 방면하는 것.
현실 예시: 정말 효과가 있는 항암제인데 "효과 없다"고 판정하면, 암 환자들이 생명을 구할 수 있는 약을 쓰지 못하게 됩니다.
확률 = beta. 검정력(Power) = 1 - beta

어떤 오류가 더 심각한가?
상황에 따라 다릅니다. 형사 재판에서는 "무고한 사람을 감옥에 보내는 것(Type I)"이 더 심각하므로 증거 기준이 매우 높습니다 ("합리적 의심의 여지가 없을 정도로"). 반면 전염병 검사에서는 "감염자를 놓치는 것(Type II)"이 더 위험하므로 기준을 느슨하게 합니다 (양성 판정을 넉넉하게).

쉽게 말하면: 제1종 오류는 "허위 경보"이고, 제2종 오류는 "탐지 실패"입니다. 공항 보안검색에서 일반인을 잡아세우는 것(Type I)과, 진짜 위험인물을 통과시키는 것(Type II) -- 둘 다 줄이려면 검색 기술(표본 크기)을 높여야 합니다.

	H0 참 (무고)	H0 거짓 (범인)
H0 기각 (유죄)	제1종 오류 (alpha)	올바른 결정 (Power)
H0 기각 실패 (무죄)	올바른 결정	제2종 오류 (beta)

시각적 탐색: 아래에서 alpha 기준선을 조절하고 효과 크기를 바꿔보세요. alpha를 줄이면(기준을 엄격하게) beta가 늘어나고(진짜 효과를 놓칠 확률 증가), 효과 크기가 클수록 검정력(Power)이 올라갑니다.

유의수준 (alpha): 효과 크기 (d): d=1.5 표본 크기:

alpha (Type I)

beta (Type II)

검정력 (Power)

효과 크기

실무적 교훈: alpha와 beta는 시소 관계입니다. 둘 다 줄이려면 표본 크기(n)를 늘려야 합니다. 제약회사가 비싼 임상시험에서 큰 표본을 쓰는 이유가 여기에 있습니다 -- 효과가 있는 약을 "효과 없다"고 판정하는 실수(Type II)를 줄이기 위해서입니다.

실습 3: p-해킹 시뮬레이터

20개의 완전히 무작위인 변수가 있습니다 (어떤 것도 결과에 영향을 주지 않습니다). 각 변수에 대해 t-검정을 실시하면, 과연 "유의한 결과(p < 0.05)"가 나올까요?

p-해킹(p-hacking)이란: 여러 분석을 시도한 후, 유의한 결과만 골라서 보고하는 것입니다. 20개 변수를 검정하면, 모두 무작위라 하더라도 평균 1개는 p < 0.05가 됩니다. (20 * 0.05 = 1). 이것은 과학계의 심각한 문제입니다.

p-해킹을 일상 언어로 설명하면:
주사위를 20번 던지면서 "6이 나오면 내가 초능력이 있는 것"이라고 합시다. 20번 중 한두 번은 6이 나올 겁니다. 그 순간만 촬영해서 "나는 초능력자"라고 유튜브에 올리는 것 -- 이것이 p-해킹입니다.

학계에서의 p-해킹 수법들:
- "유의한 결과가 나올 때까지" 데이터를 추가로 수집한다
- 여러 변수를 검정하고, 유의한 것만 보고한다
- 이상치를 제거했다 포함했다 하면서 p < 0.05가 되는 조합을 찾는다
- 하위 그룹을 이리저리 나누어 유의한 조합을 찾는다

쉽게 말하면: 활을 먼저 쏘고 나서 화살이 꽂힌 곳에 과녁을 그리는 것입니다.

직접 체험: "분석 실행" 버튼을 누르세요. 20개 변수 중 p < 0.05인 것이 있나요? 여러 번 반복하면 거의 매번 하나 이상 "유의한" 결과가 나옵니다. 이것이 전부 거짓 양성(false positive)입니다!

검정된 변수

유의한 결과

거짓 발견률

모두 무작위인데 유의!

대안: 다중 검정 보정
여러 검정을 동시에 수행할 때는 본페로니 보정(Bonferroni correction)을 적용합니다. 20개 검정이면 alpha를 0.05/20 = 0.0025로 낮춥니다. 이렇게 하면 거짓 양성을 대폭 줄일 수 있습니다. 또한 사전에 연구 계획을 등록(pre-registration)하여 p-해킹을 방지합니다.

실습 4: 단계별 가설검정 가이드

실제 시나리오를 선택하고, 가설검정의 5단계를 직접 밟아가며 결론을 내려보세요.

시나리오를 선택한 후 "검정 실행"을 누르세요. 각 단계가 순서대로 나타나며, 검정통계량과 p-value를 시각적으로 확인합니다.

시나리오:

실무 활용: 가설검정은 경영학에서 널리 쓰입니다. "새 마케팅 전략이 매출을 높였는가?", "교육 프로그램이 직원 생산성을 개선했는가?", "제품 A와 B의 고객 만족도에 차이가 있는가?" -- 모두 가설검정으로 답할 수 있는 질문입니다.

p-value가 전부가 아니다

p < 0.05가 나왔다고 해서 연구가 끝난 것이 아닙니다. 통계적 유의성에는 중요한 한계가 있습니다.

통계적 유의성 != 실질적 중요성

n=100,000이면 체중 0.1kg 차이도 p < 0.05가 됩니다. 하지만 0.1kg이 의학적으로 의미가 있나요? 효과 크기(effect size)를 반드시 함께 보고해야 합니다.

유의하지 않음 != 효과 없음

p = 0.08이면 "유의하지 않다"이지만, 효과가 없다는 증거가 아닙니다. 표본이 작아서 효과를 탐지하지 못했을 수 있습니다. 부재의 증거(evidence of absence)가 아닙니다.

현대 통계학의 추세: 미국통계학회(ASA, 2016)는 p-value에 대한 성명서를 발표했습니다. 핵심 메시지: (1) p-value만으로 결론 내리지 말 것, (2) 효과 크기와 신뢰구간을 함께 보고할 것, (3) p = 0.049와 p = 0.051은 본질적으로 다르지 않다. 연구의 질은 p-value의 크기가 아니라 설계의 엄밀함에 달려 있습니다.

이 장의 핵심

가설검정은 "효과 없다(H0)"를 가정하고, 데이터로 이를 반박하는 논리이다.
p-value는 "H0이 참일 때, 현재 데이터 이상으로 극단적인 결과를 관찰할 확률"이다.
p < alpha이면 H0 기각, p >= alpha이면 H0 기각 실패 (효과 없음의 증명이 아님).
제1종 오류(alpha)와 제2종 오류(beta)는 트레이드오프 관계이며, 표본을 늘려야 둘 다 줄일 수 있다.
다중 검정은 거짓 양성을 유발하므로 보정이 필요하다 (p-해킹 주의).
통계적 유의성과 실질적 중요성은 별개이며, 효과 크기와 신뢰구간을 함께 보고해야 한다.

다음 장 예고: 8-10장에서 배운 표본추출, 신뢰구간, 가설검정을 종합하여 실제 데이터에 적용하는 캡스톤 프로젝트가 기다리고 있습니다.

← 목차로 돌아가기