PART 2 · 11장

주요 검정법

어떤 검정을 써야 하나?

검정법이 수십 가지인데, 뭘 써야 하나?

마케팅 A/B 테스트, 직원 만족도 비교, 제품 불량률 검사 -- 모두 '검정'이 필요하다. 하지만 검정법이 수십 가지인데, 어떤 것을 선택해야 하는가?

요리를 할 때 재료에 맞는 도구를 선택하듯, 통계 검정도 데이터의 종류에 따라 적합한 방법이 달라진다. 스테이크를 젓가락으로 먹을 수 없고, 국을 포크로 먹을 수 없듯이, 연속형 데이터에 카이제곱 검정을 쓰거나, 범주형 데이터에 t-검정을 쓰면 잘못된 결론에 이른다.

이 장에서는 가장 자주 쓰이는 검정법 네 가지를 직접 계산하고 시각화하면서, "내 데이터에는 어떤 검정이 맞는가?"라는 질문에 스스로 답할 수 있게 된다.

핵심 아이디어 -- "요리 도구 선택법": 검정 선택의 90%는 딱 세 가지 질문으로 결정된다. (1) 결과변수가 연속형인가, 범주형인가? (2) 비교 그룹이 몇 개인가? (3) 그룹이 독립적인가, 대응(짝지어진)인가?

"어떤 검정을 써야 하나?" -- 요리책(Cookbook) 접근법:
복잡하게 생각할 필요 없습니다. 다음 질문에 순서대로 답하면 검정법이 자동으로 결정됩니다.

1단계: "내가 비교하려는 것이 숫자(평균)인가, 아니면 분류(비율)인가?"
  - 숫자(키, 점수, 매출 등) --> t-검정 또는 ANOVA
  - 분류(남/여, 선호도A/B/C 등) --> 카이제곱 검정

2단계: (숫자인 경우) "비교 그룹이 몇 개인가?"
  - 1개(기준값과 비교) --> 일표본 t-검정
  - 2개 --> 독립 or 대응표본 t-검정
  - 3개 이상 --> ANOVA

3단계: (2개 그룹인 경우) "같은 사람을 두 번 측정했나, 다른 사람인가?"
  - 같은 사람(전/후 비교) --> 대응표본 t-검정
  - 다른 사람 --> 독립표본 t-검정

쉽게 말하면: 통계 검정 선택은 레시피를 고르는 것과 같습니다. "재료(데이터)가 뭔지"만 알면 적합한 레시피(검정법)는 거의 자동으로 결정됩니다.

실습 1: 검정 선택 의사결정 나무

아래 흐름도에서 각 질문에 답하면 적합한 검정법이 자동으로 추천된다. 각 노드를 클릭하여 분기해 보자.

의사결정 나무: 첫 번째 질문부터 시작하여 클릭으로 답을 선택하면, 최종적으로 추천 검정법이 하이라이트된다. 다시 시작하려면 "초기화" 버튼을 누르면 된다.

검정법 비교 참조표

검정법	결과변수	그룹 수	독립/대응	주요 가정	사용 예시
일표본 t-검정	연속형	1	-	정규성	우리 회사 평균 급여가 업계 평균과 다른가?
독립표본 t-검정	연속형	2	독립	정규성, 등분산	A팀과 B팀의 성과 차이가 있는가?
대응표본 t-검정	연속형	2	대응	차이의 정규성	교육 전후 성적이 달라졌는가?
일원배치 ANOVA	연속형	3+	독립	정규성, 등분산	3개 부서의 만족도 차이가 있는가?
카이제곱 독립성 검정	범주형	2+	독립	기대빈도 >= 5	성별에 따라 제품 선호가 다른가?

실무 팁: 의사결정 나무를 통해 검정법을 선택한 뒤에도, 해당 검정의 가정(정규성, 등분산 등)이 충족되는지 반드시 확인해야 한다. 가정이 심하게 위반되면 비모수 검정(Mann-Whitney, Kruskal-Wallis 등)을 고려한다.

비모수 검정은 언제 쓰나? -- "데이터가 정규분포를 따르지 않을 때":
t-검정과 ANOVA는 데이터가 정규분포(종 모양)를 따른다고 가정한다. 하지만 현실 데이터는 종종 이 가정을 위반한다:
- 소득 데이터: 소수의 고소득자 때문에 오른쪽으로 꼬리가 긴 분포
- 고객 평점: 1점 아니면 5점에 몰리는 U자 분포
- 반응시간: 극단적으로 느린 응답이 꼬리를 형성

이런 경우 비모수 검정을 사용한다: Mann-Whitney U 검정(독립 2그룹), Wilcoxon 부호순위 검정(대응 2그룹), Kruskal-Wallis 검정(3그룹 이상). 비모수 검정은 정규성을 가정하지 않는 대신, 통계적 검정력이 약간 낮아지는 단점이 있다.

실습 2: t-검정 계산기

t-검정은 평균을 비교하는 가장 기본적인 도구이다. "우리 회사 직원의 평균 급여가 업계 평균(3,500만원)보다 높은가?"라는 질문에는 일표본 t-검정을, "A팀과 B팀의 성과가 다른가?"라는 질문에는 독립표본 t-검정을 쓴다.

"두 그룹의 평균이 다른가?" -- t-검정의 핵심 질문:
t-검정은 한마디로 "이 차이가 우연인가, 진짜인가?"를 판단하는 도구이다.

비즈니스 A/B 테스트 예시:
온라인 쇼핑몰에서 버튼 색상을 빨간색(A)과 파란색(B)으로 나누어 테스트했다. A그룹의 구매 전환율은 3.2%, B그룹은 3.8%였다. 이 0.6%p 차이는 진짜 효과인가, 아니면 그날 우연히 그랬을 뿐인가?

쉽게 말하면: t-검정은 "두 숫자의 차이"를 "데이터의 흔들림(분산)"으로 나눈 것이다. 차이가 크고 흔들림이 적으면 t값이 커져서 "진짜 차이"라고 판단하고, 차이가 작거나 흔들림이 크면 t값이 작아서 "우연일 수 있다"고 판단한다.

일표본 t = (x̄ - μ₀) / (s / √n)
독립표본 t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

시나리오를 선택하고 직접 검정해 보자. 프리셋 시나리오를 선택하거나, 직접 데이터를 입력할 수 있다. "검정 실행" 버튼을 누르면 t-통계량, 자유도, p-값이 계산되고, t-분포 위에 기각역이 시각화된다.

검정 유형: 시나리오: 유의수준:

주의: t-검정은 데이터가 정규분포를 따른다고 가정한다. 표본 크기가 30 이상이면 중심극한정리에 의해 이 가정이 대체로 충족되지만, 소표본에서는 정규성 검정(Shapiro-Wilk 등)을 먼저 수행하는 것이 바람직하다.

실습 3: 카이제곱 독립성 검정

두 범주형 변수 사이에 관련이 있는지를 검정하는 방법이다. 예를 들어, "성별에 따라 제품 선호도가 다른가?"라는 질문에 답할 수 있다. 핵심 아이디어는 단순하다: 두 변수가 독립이라면 관측빈도와 기대빈도가 비슷해야 한다.

"두 범주형 변수가 관련 있는가?" -- 카이제곱 검정의 핵심:
t-검정이 "숫자의 평균"을 비교한다면, 카이제곱 검정은 "분류의 비율"이 관련 있는지를 검정한다.

마케팅 예시:
SNS 광고를 통해 유입된 고객 1,000명의 데이터가 있다. "20대는 인스타그램 광고를 더 선호하고, 40대는 유튜브 광고를 더 선호하는가?" 이 질문은 "연령대"와 "선호 채널"이라는 두 범주형 변수의 관련성을 묻는 것이다. 만약 연령과 채널 선호가 아무 관련이 없다면(독립이라면), 각 셀의 관측빈도는 기대빈도와 비슷해야 한다. 관측값과 기대값의 차이가 크면 클수록 카이제곱 통계량이 커지고, "두 변수는 관련이 있다"고 판단하게 된다.

쉽게 말하면: "만약 두 변수가 정말 상관없다면 이런 결과가 나왔을 리 없다"는 논리이다.

χ² = Σ (Oᵢ - Eᵢ)² / Eᵢ
O = 관측빈도, E = 기대빈도 = (행합계 x 열합계) / 전체합계

분할표를 직접 만들거나 프리셋을 사용하여 검정해 보자. 관측빈도표 아래에 기대빈도가 자동으로 계산되고, 히트맵으로 관측값과 기대값의 차이를 시각적으로 비교할 수 있다.

시나리오:

관측빈도 (Observed)

기대빈도 (Expected)

기대빈도 규칙: 카이제곱 검정이 유효하려면 모든 셀의 기대빈도가 5 이상이어야 한다. 기대빈도가 5 미만인 셀이 전체의 20%를 넘으면, Fisher의 정확 검정을 대신 사용한다.

실습 4: 일원배치 분산분석 (ANOVA)

세 개 이상의 그룹 평균을 동시에 비교할 때 ANOVA를 사용한다. "영업, 마케팅, IT 세 부서의 만족도에 차이가 있는가?"처럼 t-검정을 반복하면 발생하는 다중비교 문제를 ANOVA가 해결한다.

"세 개 이상의 그룹 비교" -- ANOVA가 필요한 이유:
회사에 영업부, 마케팅부, IT부, 인사부, 재무부 5개 부서가 있다고 하자. "어느 부서의 직원 만족도가 가장 높은가?"를 알고 싶다. 두 부서씩 짝지어서 t-검정을 반복하면 10번(5C2=10)이나 해야 하고, 그만큼 "우연히 유의한 결과"(거짓 양성)가 나올 확률도 높아진다.

ANOVA는 이 문제를 한 번의 검정으로 해결한다. 핵심 아이디어는 이렇다: "그룹 간의 차이(집단 간 분산)"가 "그룹 내부의 흔들림(집단 내 분산)"보다 충분히 크면, "그룹 간에 진짜 차이가 있다"고 판단한다.

쉽게 말하면: 학교에서 반별 시험 성적을 비교한다고 하자. 1반 평균 75점, 2반 80점, 3반 85점이라면 반 사이에 차이가 있어 보인다. 하지만 각 반 안에서도 점수가 50점부터 100점까지 크게 흩어져 있다면? "반 사이의 차이"가 "반 안의 차이"에 비해 별것 아닌 것이 된다. ANOVA의 F-통계량은 바로 이 비율(반 사이 / 반 안)을 계산하는 것이다.

왜 t-검정을 반복하면 안 되나? 3개 그룹을 비교하려면 t-검정 3번이 필요하다 (A-B, A-C, B-C). 유의수준 0.05를 3번 적용하면, 적어도 하나에서 우연히 유의해질 확률이 1 - 0.95³ = 14.3%로 급증한다. ANOVA는 이를 한 번의 검정으로 처리한다.

F = 집단 간 분산(MS_between) / 집단 내 분산(MS_within)
F가 크면 = 그룹 간 차이가 그룹 내 변동에 비해 크다 = 그룹 효과 있음

부서별 만족도 데이터를 생성하고 ANOVA를 수행해 보자. 그룹 수와 효과 크기를 조절하면서 F-통계량과 p-값이 어떻게 변하는지 관찰하자. 유의하면 사후검정(post-hoc)으로 어떤 쌍이 다른지 확인할 수 있다.

그룹 수: 그룹당 인원: 효과 크기:

비즈니스 활용: "어떤 부서의 만족도가 가장 낮은가?" -- ANOVA로 전체 차이를 확인한 뒤, 사후검정으로 구체적으로 어떤 부서 간에 차이가 있는지 파악한다. 이는 인사 정책의 우선순위를 결정하는 데 직접적으로 활용된다.

실습 5: 검정법 빠른 참조 카드

아래에서 연구 상황의 조건을 선택하면 적합한 검정법과 함께 해당 검정의 가정, 공식, 사용 예시가 자동으로 표시된다. 실제 분석에서 참조 카드처럼 활용할 수 있다.

결과변수: 그룹 수: 설계:

이 장의 핵심

검정 선택은 결과변수 유형, 그룹 수, 독립/대응 여부의 세 가지로 결정된다.
t-검정은 평균을 비교하는 가장 기본적인 도구이다 (1표본, 독립표본, 대응표본).
카이제곱 검정은 두 범주형 변수의 독립성을 검정한다.
ANOVA는 3개 이상 그룹의 평균을 동시에 비교하며, 유의하면 사후검정으로 쌍별 차이를 확인한다.
모든 검정에는 가정이 있으며, 가정 위반 시 비모수 대안을 고려해야 한다.

다음 장 예고: p-값이 유의하다고 해서 반드시 중요한 발견은 아니다. 효과크기와 재현성 위기를 통해 "통계적 유의성"의 한계를 살펴본다.

← 목차로 돌아가기