PART 2 · 9장

신뢰구간

'95% 확신'의 진짜 의미

여론조사의 "오차범위 +-3.1%p" -- 정확히 무엇을 뜻하는가?

뉴스에서 흔히 듣는 표현입니다: "A 후보 지지율 48%, B 후보 45%, 오차범위 +-3.1%p, 신뢰수준 95%." 그런데 이 문장을 정확히 이해하는 사람은 의외로 적습니다.

신뢰구간이 뭔가? 한마디로 말하면, 참값이 이 범위 안에 있을 것으로 기대하는 구간입니다. 표본에서 계산한 값(예: 48%)은 정확한 모수가 아닙니다. 그래서 "정확히 48%입니다"라고 말하는 대신, "대략 44.9%에서 51.1% 사이에 있을 것입니다"라고 범위를 제시하는 것입니다. 이 범위가 바로 신뢰구간(confidence interval, CI)입니다.

"95% 확신"이란 무엇일까요? 이것을 이해하려면 낚시 비유가 도움이 됩니다.

낚시 그물 비유: 호수에 물고기가 딱 한 마리 있습니다 (모수 = 진짜 지지율). 물고기의 정확한 위치는 모릅니다. 우리가 할 수 있는 것은 그물(신뢰구간)을 던지는 것입니다.

그물을 100번 던지면, 약 95번은 물고기를 잡습니다. 나머지 5번은 물고기를 놓칩니다. 즉, 95%는 그물(구간)이 물고기(모수)를 포함할 확률이지, 물고기가 그물 안에 있을 확률이 아닙니다. 물고기는 항상 같은 자리에 있고, 움직이는 것은 그물입니다.

그물의 크기를 바꿀 수도 있습니다:
-- 아주 큰 그물(99% 신뢰구간): 거의 항상 물고기를 잡지만, 그물이 커서 "호수 어딘가에 있다"는 것밖에 모릅니다.
-- 작은 그물(80% 신뢰구간): 위치를 정밀하게 알 수 있지만, 자주 놓칩니다.
-- 적당한 그물(95% 신뢰구간): 정밀도와 안전성의 균형. 그래서 95%가 관행적 기준입니다.

이 미묘한 차이가 신뢰구간의 핵심입니다. 이 장에서는 시뮬레이션으로 이 개념을 체험하고, 실제 여론조사를 해석하는 방법까지 배웁니다.

신뢰구간 만들기: 공식의 직관적 이해

8장에서 배운 표본 평균은 모집단 평균 근처에 있지만, 정확히 같지는 않습니다. 신뢰구간은 "모수가 이 범위 안에 있을 것이다"라는 구간 추정(interval estimation)입니다.

가장 흔한 오해를 미리 짚고 넘어갑시다: "이 구간에 참값이 있을 확률이 95%이다" -- 이 해석은 틀렸습니다!

참값(모수)은 고정된 하나의 숫자입니다. 구간 안에 있거나 없거나, 둘 중 하나입니다. 동전처럼 확률적으로 들어갔다 나갔다 하지 않습니다.

올바른 해석: "이 방법(절차)으로 구간을 100번 만들면, 약 95개의 구간이 참값을 포함할 것이다." 무작위인 것은 구간이지, 참값이 아닙니다.

신뢰구간 = 표본평균 +- z * (sigma / sqrt(n))

쉽게 말하면: "우리가 가진 최선의 추정값(표본평균)을 중심으로, 오차가 있을 수 있는 범위(z * SE)만큼 양쪽으로 여유를 준 것"입니다.

중심: 표본평균

우리가 가진 최선의 추정값입니다. 구간의 한가운데에 위치합니다.

오차한계: z * SE

구간의 폭을 결정합니다. 신뢰수준이 높을수록(z가 클수록), 표본이 작을수록(SE가 클수록) 구간이 넓어집니다.

z-값의 의미:
90% 신뢰구간: z = 1.645 (좁은 그물, 놓칠 확률 10%)
95% 신뢰구간: z = 1.960 (표준적 그물, 놓칠 확률 5%)
99% 신뢰구간: z = 2.576 (넓은 그물, 놓칠 확률 1%)

신뢰수준을 높이면 "더 많이 잡을 수 있지만" 그물이 커서 정보가 부정확해집니다. 99% 신뢰구간이 "A 후보 지지율 30%-70%"라면 맞긴 하지만 쓸모가 없습니다.

실습 1: 100개의 신뢰구간 -- 핵심 시각화

이것이 이 장에서 가장 중요한 시뮬레이션입니다. 알려진 모집단(평균 = 500, 표준편차 = 100)에서 표본을 100번 뽑아 각각의 신뢰구간을 그립니다. 진짜 모수(500)를 포함하는 구간은 몇 개일까요?

핵심 실험: (1) 95% 신뢰수준으로 실행하고, 모수를 포함하지 못한 구간(빨간색)이 약 5개인지 확인하세요. (2) 90%로 바꾸면? 80%로 바꾸면? 놓치는 구간이 더 많아지는 것을 관찰하세요. (3) 표본 크기를 바꿔보세요. 구간 폭이 어떻게 변하나요?

신뢰수준: 표본 크기:

생성된 CI

모수 포함 (파란색)

모수 미포함 (빨간색)

적중률

이론값에 가까운가?

핵심 통찰: 95% 신뢰수준이면 약 95개의 구간이 모수를 포함합니다. 하지만 "정확히 95개"는 아닙니다 -- 92개일 수도, 97개일 수도 있습니다. "95%"는 장기적으로 이 방법을 반복하면 95%의 구간이 모수를 포함한다는 뜻입니다. 한 번 만든 특정 구간이 모수를 포함할 "확률"이 95%라는 뜻이 아닙니다.

실습 2: 신뢰구간 폭 탐색기

신뢰구간의 폭은 세 가지 요소에 의해 결정됩니다. 아래 슬라이더로 각 요소를 바꿔보며 구간 폭의 변화를 직접 확인하세요.

확인해볼 것: (1) 표본 크기(n)를 늘리면 구간이 좁아진다. (2) 신뢰수준을 높이면 구간이 넓어진다. (3) 모집단 표준편차가 클수록 구간이 넓어진다. 세 가지 요소 중 어떤 것이 가장 큰 영향을 미치는지 비교해보세요.

표본 크기 (n): 50

신뢰수준: 95%

모집단 SD: 100

오차한계 (ME)

CI 하한

CI 상한

CI 폭

상한 - 하한

신뢰구간의 폭을 결정하는 3가지 요인:
(1) 표본 크기 (n): n이 커지면 구간이 좁아집니다. 더 많이 조사하면 더 정밀해지니까요. n이 4배가 되면 구간 폭은 절반으로 줄어듭니다 (sqrt(n) 때문).
(2) 신뢰수준: 95%에서 99%로 높이면 구간이 넓어집니다. "더 확실하게" 잡으려면 더 넓은 그물을 던져야 합니다. 90% 신뢰구간이 가장 좁고, 99% 신뢰구간이 가장 넓습니다.
(3) 모집단의 변동성 (sigma): 데이터가 많이 흩어져 있을수록(sigma가 클수록) 구간이 넓어집니다. 사람들의 의견이 50:50으로 갈리면 불확실성이 크고, 90:10으로 쏠리면 불확실성이 작습니다.

쉽게 말하면: 구간을 좁히고 싶으면 (1) 표본을 늘리거나, (2) 신뢰수준을 낮추면 됩니다. 하지만 (2)는 놓칠 위험을 높이고, (1)은 비용이 듭니다. 이것이 통계의 딜레마입니다.

실무적 딜레마: 신뢰수준을 높이면 "더 안전하지만" 구간이 넓어져 정보가 부정확해집니다. 표본을 늘리면 구간이 좁아지지만 비용이 증가합니다. 이 사이에서 적절한 균형을 찾는 것이 통계적 의사결정의 핵심입니다.

실습 3: 여론조사 해석기

실제 여론조사 결과를 입력하면 각 후보의 신뢰구간을 시각적으로 보여줍니다. 두 후보의 구간이 겹치면 "통계적으로 유의미한 차이가 없다" -- 즉, 접전입니다.

시나리오: (1) A=48%, B=45%, n=1000 -- 오차범위 안에 있는 접전인가? (2) A=52%, B=40%, n=1000 -- 이것은 확실한 우세인가? (3) 같은 결과에서 n=200으로 줄이면 해석이 어떻게 달라지는가?

A 후보 지지율 (%)

B 후보 지지율 (%)

표본 크기 (n)

언론 보도 읽기: "A 후보가 3%p 앞선다"는 제목만 보면 A가 유리해 보입니다. 하지만 오차범위가 +-3.1%p라면, 실제로는 B가 앞서고 있을 가능성도 배제할 수 없습니다. 신뢰구간이 겹치는지 확인하는 습관이 데이터 리터러시의 핵심입니다.

실습 4: 신뢰구간 오해 퀴즈

신뢰구간은 통계학에서 가장 오해가 많은 개념 중 하나입니다. 아래 5개 문장이 맞는지 틀린지 판단해보세요.

각 문장을 읽고 O(맞다) 또는 X(틀리다)를 선택하세요. 직관적으로 맞아 보이는 문장도 틀릴 수 있습니다.

가장 흔한 오해: "95% 신뢰구간"은 "모수가 이 구간 안에 있을 확률이 95%"라는 뜻이 아닙니다. 모수는 고정된 값입니다 -- 구간 안에 있거나 없거나, 둘 중 하나입니다. 95%는 이 방법(절차)을 반복하면 장기적으로 95%가 모수를 포함한다는 뜻입니다. 구간은 무작위이고, 모수는 고정입니다. 낚시 비유를 떠올려보세요.

비율의 신뢰구간

여론조사처럼 비율(proportion)을 추정할 때의 신뢰구간은 약간 다른 공식을 씁니다. 표준편차 대신 비율의 표준오차를 사용합니다.

 
비율의 CI = p-hat +- z * sqrt(p-hat(1 - p-hat) / n)
 

p-hat은 표본 비율(예: 1000명 중 480명이 A 후보를 지지하면 p-hat = 0.48)입니다. 이 공식은 정규근사가 적절한 경우(np-hat >= 10이고 n(1-p-hat) >= 10)에만 사용합니다.

오차범위의 비밀: 뉴스에서 말하는 "오차범위 +-3.1%p"는 바로 z * sqrt(p-hat(1-p-hat)/n) 부분입니다. 95% 신뢰수준에서 p-hat = 0.5, n = 1000이면: 1.96 * sqrt(0.5 * 0.5 / 1000) = 1.96 * 0.0158 = 0.031, 즉 +-3.1%p입니다.

선거 여론조사에서 "오차범위 +-3%p"의 정확한 의미:
"A 후보 지지율 48%, 오차범위 +-3%p"라고 하면, A 후보의 신뢰구간은 [45%, 51%]입니다.

이것이 뜻하는 바는: "같은 방식으로 여론조사를 100번 반복하면, 약 95번은 구간 [표본값-3, 표본값+3]이 진짜 지지율을 포함할 것이다."

따라서 "A 48%, B 45%, 오차범위 +-3%p"라는 결과에서: A의 구간 [45%, 51%]와 B의 구간 [42%, 48%]가 겹칩니다. 이 경우 "통계적으로 의미 있는 차이가 없다", 즉 접전입니다. 3%p 차이가 있어 보이지만, 오차범위를 고려하면 실제로는 B가 앞서고 있을 가능성도 배제할 수 없습니다.

이 장의 핵심

신뢰구간 = 표본평균 +- z * SE로, 모수가 있을 법한 범위를 나타낸다.
95% 신뢰구간은 "이 방법을 반복하면 95%의 구간이 모수를 포함한다"는 뜻이다.
표본이 클수록 구간이 좁아지고, 신뢰수준이 높을수록 구간이 넓어진다.
두 그룹의 신뢰구간이 겹치면 통계적으로 의미 있는 차이라고 단정하기 어렵다.
"95% 확률로 모수가 이 안에 있다"는 엄밀히 틀린 해석이다.

다음 장 예고: 신뢰구간이 "범위"를 제시한다면, 가설검정은 "예/아니오"로 결론을 내립니다. 10장에서는 p-value의 진짜 의미와 가설검정의 논리를 배웁니다.

← 목차로 돌아가기