주요 검정법
어떤 검정을 써야 하나?
검정법이 수십 가지인데, 뭘 써야 하나?
마케팅 A/B 테스트, 직원 만족도 비교, 제품 불량률 검사 -- 모두 '검정'이 필요하다. 하지만 검정법이 수십 가지인데, 어떤 것을 선택해야 하는가?
요리를 할 때 재료에 맞는 도구를 선택하듯, 통계 검정도 데이터의 종류에 따라 적합한 방법이 달라진다. 스테이크를 젓가락으로 먹을 수 없고, 국을 포크로 먹을 수 없듯이, 연속형 데이터에 카이제곱 검정을 쓰거나, 범주형 데이터에 t-검정을 쓰면 잘못된 결론에 이른다.
이 장에서는 가장 자주 쓰이는 검정법 네 가지를 직접 계산하고 시각화하면서, "내 데이터에는 어떤 검정이 맞는가?"라는 질문에 스스로 답할 수 있게 된다.
복잡하게 생각할 필요 없습니다. 다음 질문에 순서대로 답하면 검정법이 자동으로 결정됩니다.
1단계: "내가 비교하려는 것이 숫자(평균)인가, 아니면 분류(비율)인가?"
- 숫자(키, 점수, 매출 등) --> t-검정 또는 ANOVA
- 분류(남/여, 선호도A/B/C 등) --> 카이제곱 검정
2단계: (숫자인 경우) "비교 그룹이 몇 개인가?"
- 1개(기준값과 비교) --> 일표본 t-검정
- 2개 --> 독립 or 대응표본 t-검정
- 3개 이상 --> ANOVA
3단계: (2개 그룹인 경우) "같은 사람을 두 번 측정했나, 다른 사람인가?"
- 같은 사람(전/후 비교) --> 대응표본 t-검정
- 다른 사람 --> 독립표본 t-검정
쉽게 말하면: 통계 검정 선택은 레시피를 고르는 것과 같습니다. "재료(데이터)가 뭔지"만 알면 적합한 레시피(검정법)는 거의 자동으로 결정됩니다.
실습 1: 검정 선택 의사결정 나무
아래 흐름도에서 각 질문에 답하면 적합한 검정법이 자동으로 추천된다. 각 노드를 클릭하여 분기해 보자.
검정법 비교 참조표
| 검정법 | 결과변수 | 그룹 수 | 독립/대응 | 주요 가정 | 사용 예시 |
|---|---|---|---|---|---|
| 일표본 t-검정 | 연속형 | 1 | - | 정규성 | 우리 회사 평균 급여가 업계 평균과 다른가? |
| 독립표본 t-검정 | 연속형 | 2 | 독립 | 정규성, 등분산 | A팀과 B팀의 성과 차이가 있는가? |
| 대응표본 t-검정 | 연속형 | 2 | 대응 | 차이의 정규성 | 교육 전후 성적이 달라졌는가? |
| 일원배치 ANOVA | 연속형 | 3+ | 독립 | 정규성, 등분산 | 3개 부서의 만족도 차이가 있는가? |
| 카이제곱 독립성 검정 | 범주형 | 2+ | 독립 | 기대빈도 >= 5 | 성별에 따라 제품 선호가 다른가? |
t-검정과 ANOVA는 데이터가 정규분포(종 모양)를 따른다고 가정한다. 하지만 현실 데이터는 종종 이 가정을 위반한다:
- 소득 데이터: 소수의 고소득자 때문에 오른쪽으로 꼬리가 긴 분포
- 고객 평점: 1점 아니면 5점에 몰리는 U자 분포
- 반응시간: 극단적으로 느린 응답이 꼬리를 형성
이런 경우 비모수 검정을 사용한다: Mann-Whitney U 검정(독립 2그룹), Wilcoxon 부호순위 검정(대응 2그룹), Kruskal-Wallis 검정(3그룹 이상). 비모수 검정은 정규성을 가정하지 않는 대신, 통계적 검정력이 약간 낮아지는 단점이 있다.
실습 2: t-검정 계산기
t-검정은 평균을 비교하는 가장 기본적인 도구이다. "우리 회사 직원의 평균 급여가 업계 평균(3,500만원)보다 높은가?"라는 질문에는 일표본 t-검정을, "A팀과 B팀의 성과가 다른가?"라는 질문에는 독립표본 t-검정을 쓴다.
t-검정은 한마디로 "이 차이가 우연인가, 진짜인가?"를 판단하는 도구이다.
비즈니스 A/B 테스트 예시:
온라인 쇼핑몰에서 버튼 색상을 빨간색(A)과 파란색(B)으로 나누어 테스트했다. A그룹의 구매 전환율은 3.2%, B그룹은 3.8%였다. 이 0.6%p 차이는 진짜 효과인가, 아니면 그날 우연히 그랬을 뿐인가?
쉽게 말하면: t-검정은 "두 숫자의 차이"를 "데이터의 흔들림(분산)"으로 나눈 것이다. 차이가 크고 흔들림이 적으면 t값이 커져서 "진짜 차이"라고 판단하고, 차이가 작거나 흔들림이 크면 t값이 작아서 "우연일 수 있다"고 판단한다.
독립표본 t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
실습 3: 카이제곱 독립성 검정
두 범주형 변수 사이에 관련이 있는지를 검정하는 방법이다. 예를 들어, "성별에 따라 제품 선호도가 다른가?"라는 질문에 답할 수 있다. 핵심 아이디어는 단순하다: 두 변수가 독립이라면 관측빈도와 기대빈도가 비슷해야 한다.
t-검정이 "숫자의 평균"을 비교한다면, 카이제곱 검정은 "분류의 비율"이 관련 있는지를 검정한다.
마케팅 예시:
SNS 광고를 통해 유입된 고객 1,000명의 데이터가 있다. "20대는 인스타그램 광고를 더 선호하고, 40대는 유튜브 광고를 더 선호하는가?" 이 질문은 "연령대"와 "선호 채널"이라는 두 범주형 변수의 관련성을 묻는 것이다. 만약 연령과 채널 선호가 아무 관련이 없다면(독립이라면), 각 셀의 관측빈도는 기대빈도와 비슷해야 한다. 관측값과 기대값의 차이가 크면 클수록 카이제곱 통계량이 커지고, "두 변수는 관련이 있다"고 판단하게 된다.
쉽게 말하면: "만약 두 변수가 정말 상관없다면 이런 결과가 나왔을 리 없다"는 논리이다.
O = 관측빈도, E = 기대빈도 = (행합계 x 열합계) / 전체합계
관측빈도 (Observed)
기대빈도 (Expected)
실습 4: 일원배치 분산분석 (ANOVA)
세 개 이상의 그룹 평균을 동시에 비교할 때 ANOVA를 사용한다. "영업, 마케팅, IT 세 부서의 만족도에 차이가 있는가?"처럼 t-검정을 반복하면 발생하는 다중비교 문제를 ANOVA가 해결한다.
회사에 영업부, 마케팅부, IT부, 인사부, 재무부 5개 부서가 있다고 하자. "어느 부서의 직원 만족도가 가장 높은가?"를 알고 싶다. 두 부서씩 짝지어서 t-검정을 반복하면 10번(5C2=10)이나 해야 하고, 그만큼 "우연히 유의한 결과"(거짓 양성)가 나올 확률도 높아진다.
ANOVA는 이 문제를 한 번의 검정으로 해결한다. 핵심 아이디어는 이렇다: "그룹 간의 차이(집단 간 분산)"가 "그룹 내부의 흔들림(집단 내 분산)"보다 충분히 크면, "그룹 간에 진짜 차이가 있다"고 판단한다.
쉽게 말하면: 학교에서 반별 시험 성적을 비교한다고 하자. 1반 평균 75점, 2반 80점, 3반 85점이라면 반 사이에 차이가 있어 보인다. 하지만 각 반 안에서도 점수가 50점부터 100점까지 크게 흩어져 있다면? "반 사이의 차이"가 "반 안의 차이"에 비해 별것 아닌 것이 된다. ANOVA의 F-통계량은 바로 이 비율(반 사이 / 반 안)을 계산하는 것이다.
F가 크면 = 그룹 간 차이가 그룹 내 변동에 비해 크다 = 그룹 효과 있음
실습 5: 검정법 빠른 참조 카드
아래에서 연구 상황의 조건을 선택하면 적합한 검정법과 함께 해당 검정의 가정, 공식, 사용 예시가 자동으로 표시된다. 실제 분석에서 참조 카드처럼 활용할 수 있다.
- 검정 선택은 결과변수 유형, 그룹 수, 독립/대응 여부의 세 가지로 결정된다.
- t-검정은 평균을 비교하는 가장 기본적인 도구이다 (1표본, 독립표본, 대응표본).
- 카이제곱 검정은 두 범주형 변수의 독립성을 검정한다.
- ANOVA는 3개 이상 그룹의 평균을 동시에 비교하며, 유의하면 사후검정으로 쌍별 차이를 확인한다.
- 모든 검정에는 가정이 있으며, 가정 위반 시 비모수 대안을 고려해야 한다.
다음 장 예고: p-값이 유의하다고 해서 반드시 중요한 발견은 아니다. 효과크기와 재현성 위기를 통해 "통계적 유의성"의 한계를 살펴본다.