Skip to content
PART 2 · 8장

표본과 모집단

전수조사 없이 진실에 다가가기

5천만 국민의 마음을 1,000명에게 물어서 알 수 있는가?

대선을 앞둔 여론조사 결과가 뉴스에 나옵니다. "A 후보 지지율 48.2%, B 후보 45.1% (표본 1,003명, 신뢰수준 95%, 오차범위 +-3.1%p)." 5천만 유권자 중 고작 1,003명에게 물었을 뿐인데, 이 결과를 어떻게 믿을 수 있을까요?

답은 의외로 간단합니다. 국을 끓일 때 맛을 보는 것과 같은 원리입니다. 커다란 솥의 국 전체를 마시지 않아도, 숟가락 한 번이면 간을 알 수 있습니다. 단, 중요한 전제가 있습니다 -- 국을 잘 저어야 합니다. 위에 뜬 기름만 떠먹으면 "국이 너무 짜다"고 잘못 판단하게 됩니다.

이 장에서는 모집단과 표본의 관계를 이해하고, 올바른 표본 추출이 왜 중요한지, 표본 크기가 결과에 어떤 영향을 미치는지를 직접 시뮬레이션으로 체험합니다.

왜 표본조사를 하는가? -- 전수조사가 불가능한 3가지 이유:
(1) 비용: 5천만 국민 전원에게 전화하려면 수천억 원이 듭니다. 표본 1,000명이면 몇천만 원이면 됩니다.
(2) 시간: 전수조사는 몇 달이 걸립니다. 선거는 다음 주인데, 몇 달 전 여론을 알아봤자 소용없습니다.
(3) 물리적 불가능: 전구의 수명을 전수조사하려면? 전구를 전부 다 켜서 꺼질 때까지 기다려야 합니다. 그러면 팔 전구가 없습니다!

쉽게 말하면, 전수조사는 "이상적이지만 현실적으로 불가능한 경우가 대부분"이고, 그래서 일부만 뽑아 전체를 추정하는 표본조사가 필요합니다.
국 한 숟가락 비유를 더 깊이: 이 비유의 핵심을 놓치면 안 됩니다.
-- 국을 잘 젓는다 = 무작위 추출(random sampling): 고기, 야채, 국물이 골고루 섞인 상태에서 떠야 합니다. 국을 안 젓고 위만 떠먹으면 기름진 맛만 느낍니다. 이것이 바로 편향(bias)입니다.
-- 숟가락이 크다 = 표본 크기가 크다: 큰 숟가락으로 떠먹으면 더 정확한 맛을 알 수 있습니다. 하지만 잘 저은 상태라면 작은 숟가락으로도 충분히 맛을 알 수 있습니다.
-- 핵심: 숟가락의 크기(표본 크기)보다 잘 젓는 것(무작위 추출)이 더 중요합니다! 잘 안 저은 국을 큰 숟가락으로 떠봤자 편향된 맛입니다.

핵심 개념: 모집단, 표본, 편향

모집단(Population): 우리가 알고 싶은 대상 전체. 예를 들어 "대한민국 20세 이상 유권자 전원"이 모집단이 될 수 있습니다.

표본(Sample): 모집단에서 실제로 조사한 일부. 여론조사의 1,003명이 표본입니다.

모수(Parameter): 모집단의 실제 특성값. 예: 전체 유권자 중 A 후보 지지율. 보통 알 수 없습니다.

통계량(Statistic): 표본에서 계산한 값. 예: 표본 1,003명 중 A 후보 지지율. 모수를 추정하기 위해 사용합니다.

모집단 = 국 전체

전체의 진짜 맛(모수)을 알고 싶지만, 국 전부를 마실 수는 없습니다. 비용, 시간, 물리적 한계 때문에 전수조사는 거의 불가능합니다.

표본 = 숟가락 한 번

잘 저은 후 떠먹은 한 숟가락(표본)으로 전체 맛(모수)을 추정합니다. 핵심은 "잘 젓는 것" = 무작위 추출(random sampling)입니다.

편향(Bias) = 국을 안 젓고 위만 떠먹는 것. 특정 집단만 조사하면 결과가 한쪽으로 치우칩니다. 표본을 아무리 크게 늘려도, 편향이 있으면 정확한 답을 얻을 수 없습니다.
역사적 교훈: 1936년 미국 대선 여론조사 대참사
잡지 Literary Digest는 무려 240만 명을 조사해서 공화당 Landon의 압승을 예측했습니다. 같은 시기, 신생 여론조사 기관 Gallup은 고작 5만 명만 조사하고 민주당 Roosevelt의 승리를 예측했습니다.

결과는? Roosevelt가 46개 주에서 승리하는 압승. Gallup이 맞았습니다.

240만 명이나 조사한 Literary Digest는 왜 틀렸을까요? 조사 대상을 자사 구독자, 전화 소유자, 자동차 등록자에서 뽑았기 때문입니다. 1936년에 전화와 자동차가 있는 사람은 부유층이었고, 부유층은 공화당을 지지하는 경향이 있었습니다. 즉, 표본 크기는 거대했지만 표본이 모집단을 대표하지 못했습니다. 국을 안 젓고 위에 뜬 기름만 240만 숟가락 떠먹은 셈입니다.

반면 Gallup은 인구 구성에 맞게 무작위로 추출했기 때문에 5만 명만으로도 정확했습니다. 이 사건은 "큰 표본보다 좋은 표본이 중요하다"는 통계학의 핵심 교훈을 남겼습니다.

실습 1: 시각적 표본추출 시뮬레이터

아래에 10,000개의 점이 있습니다. 각 색상은 정당 지지를 나타냅니다. "표본 추출" 버튼을 눌러 표본을 뽑고, 표본 비율과 모집단 비율을 비교해보세요. 여러 번 반복하면 표본 추출의 변동성(sampling variability)을 직접 느낄 수 있습니다.

해볼 것: 표본 크기를 50, 200, 1000으로 바꿔가며 반복 추출해보세요. 표본이 클수록 모집단 비율에 가까워지는 것을 확인합니다.
모집단 (N=10,000)
추출된 표본
모집단 비율 vs 표본 비율
정당 모집단 비율 표본 비율 차이
추출 횟수
0
최대 오차
-
표본-모집단 비율 차이
평균 오차
-
반복 추출 시 수렴
관찰 포인트: 같은 크기의 표본을 여러 번 뽑아보면, 매번 결과가 조금씩 달라집니다. 이것이 표집 변동성(sampling variability)입니다. 하지만 표본 크기가 커질수록 변동폭이 줄어드는 것을 확인하세요.

실습 2: 표본추출 방법 비교

표본을 뽑는 방법에는 여러 가지가 있습니다. 각 방법이 어떤 점을 선택하는지 시각적으로 확인하고, 편향과 분산이 어떻게 달라지는지 비교해보세요.

단순무작위추출 (SRS)

모집단에서 완전히 무작위로 뽑습니다. 가장 기본적인 방법입니다. 모든 개체가 동일한 확률로 선택됩니다.

층화추출 (Stratified)

모집단을 동질적인 하위 집단(층)으로 나눈 뒤, 각 층에서 비례적으로 뽑습니다. 각 집단이 빠짐없이 대표됩니다.

군집추출 (Cluster)

모집단을 지역 등의 군집으로 나누고, 일부 군집을 통째로 조사합니다. 비용은 줄지만 정밀도가 떨어질 수 있습니다.

편의추출 (Convenience)

접근하기 쉬운 대상만 조사합니다. 가장 편하지만 편향이 심합니다. 과학적 조사에는 부적절합니다.

비교 실험: 아래에서 추출 방법을 바꿔가며 100번씩 반복 추출해보세요. 어떤 방법이 모집단 비율에 가장 가깝고 안정적인지 관찰합니다.
추출 시각화 (마지막 추출)
A당 비율 분포 (100회 반복)
모집단 A당 비율
-
100회 평균
-
편향 확인
표준편차
-
정밀도(분산) 확인
편향
-
평균 - 모수
핵심 관찰: SRS와 층화추출은 편향이 거의 0에 가깝습니다 (비편향 추정). 층화추출은 표준편차도 더 작습니다 (더 정밀합니다). 편의추출은 편향이 크게 나타납니다 -- 표본을 아무리 많이 뽑아도 편향은 줄어들지 않습니다.

실습 3: 표본 크기의 마법

표본 크기 n이 커지면 표본 평균은 모집단 평균 주변으로 점점 촘촘하게 모입니다. 이 "흩어짐의 정도"를 표준오차(Standard Error)라고 합니다.

표준오차(SE) = sigma / sqrt(n)

쉽게 말하면, SE는 "표본 평균이 진짜 평균 주위에서 얼마나 흔들리는가"를 나타내는 수치입니다. SE가 작을수록 표본 평균이 안정적이고 신뢰할 수 있습니다.
표준오차(SE) -- 표본 평균의 흔들림 크기:
여론조사를 같은 방법으로 100번 반복한다고 상상해보세요. 매번 조금씩 다른 결과가 나올 것입니다 (48.2%, 47.5%, 49.1%, ...). 이 결과들이 얼마나 흩어져 있는가가 바로 표준오차입니다.

sigma는 모집단의 표준편차(고정값), n은 표본 크기입니다. n이 4배가 되면 SE는 절반으로 줄어듭니다. 즉, 정밀도를 2배 높이려면 표본을 4배 늘려야 합니다 -- 수확 체감의 법칙입니다.
n이 커지면 왜 정확해지는가? -- sqrt(n) 법칙의 직관:
동전을 10번 던져서 앞면 비율을 계산하면, 0.3이 나오기도 하고 0.7이 나오기도 합니다 (흔들림이 큽니다). 100번 던지면? 0.45~0.55 사이에 대부분 들어옵니다. 10,000번 던지면? 0.49~0.51 사이에 거의 모든 결과가 모입니다.

왜 그럴까요? 데이터가 많아질수록 "운이 좋아서 앞면이 많이 나온 것"과 "운이 나빠서 뒷면이 많이 나온 것"이 서로 상쇄되기 때문입니다. 많은 데이터의 평균은 극단적인 값들이 서로 중화되어 진짜 값에 수렴합니다.

다만 상쇄 효과는 sqrt(n)에 비례합니다. 그래서 정밀도를 2배로 높이려면 표본을 2배가 아니라 4배로 늘려야 합니다. 이것이 "수확 체감"입니다.
n=100에서 n=400으로 4배 늘려야 오차가 절반으로 줄고, n=400에서 n=1,600으로 또 4배 늘려야 다시 절반이 됩니다.
슬라이더 실험: 표본 크기(n)를 10에서 2000까지 바꿔보세요. 각 크기에서 100개의 표본 평균을 계산하여 분포를 보여줍니다. 분포가 점점 좁아지는 것을 관찰하세요.
n=50
모집단 평균
-
모집단 표준편차
-
이론적 SE
-
sigma/sqrt(n)
실제 SE
-
100개 표본 평균의 SD
핵심 발견: 이론적 SE와 실제 SE가 거의 일치합니다! 이것이 통계학의 핵심 원리입니다: 수학적 공식이 현실의 표본 추출을 정확히 예측합니다. n=100일 때와 n=400일 때의 분포 폭을 비교해보세요. n이 4배가 되면 SE가 정확히 절반으로 줄어듭니다.
실무 시사점: 여론조사 회사가 표본을 1,000명으로 정하는 데는 이유가 있습니다. n=1,000이면 오차범위가 약 +-3%p인데, n=4,000으로 늘려도 오차범위가 +-1.5%p밖에 줄지 않습니다. 비용 대비 효율을 고려한 것입니다.

실습 4: 필요 표본 크기 계산기

"내 조사에는 몇 명이 필요한가?" -- 실무에서 가장 자주 묻는 질문입니다. 아래 계산기에 원하는 정밀도를 입력하면 필요한 표본 크기를 알려줍니다.

n = (z)2 * p(1 - p) / (E)2
z = 신뢰수준에 대응하는 z-값 (95%이면 1.96)
p = 예상 비율 (모르면 0.5로 설정 -- 가장 보수적)
E = 허용 오차범위 (예: 0.03 = 3%p)
시나리오 연습: (1) 오차범위 3%p, 신뢰수준 95%일 때 몇 명이 필요한가? (2) 오차범위를 1%p로 줄이면? 표본이 몇 배로 늘어나는가? (3) 예상 비율을 0.1로 바꾸면? (극단적 비율일수록 표본이 적게 필요합니다)
주의: 이 공식은 단순무작위추출을 가정합니다. 실제 조사에서는 응답률, 층화, 군집 효과 등을 고려하여 표본을 더 크게 잡아야 합니다. 또한 모집단이 작을 때는 유한모집단 수정(finite population correction)이 필요합니다.

왜 이 모든 것이 작동하는가: 중심극한정리 맛보기

표본추출이 "작동하는" 근본 이유는 중심극한정리(Central Limit Theorem)에 있습니다. 아무리 이상한 모양의 모집단이라도, 표본 평균의 분포는 n이 충분히 크면 정규분포에 가까워집니다.

비유: 주사위 하나를 던지면 1부터 6까지 균등하게 나옵니다 (정규분포와 거리가 멉니다). 하지만 주사위 30개를 동시에 던져서 평균을 구하는 것을 반복하면, 그 평균들의 분포는 놀랍게도 종 모양(정규분포)이 됩니다. 이것이 표본 평균을 신뢰할 수 있는 이유입니다.
정리하면: (1) 무작위로 뽑으면 편향 없이 모수를 추정할 수 있다. (2) 표본이 클수록 추정이 정밀해진다 (SE = sigma/sqrt(n)). (3) 중심극한정리 덕분에 표본 평균의 분포를 예측할 수 있다. 이 세 가지가 모든 추론 통계의 기초입니다. 다음 장의 신뢰구간은 바로 여기에서 출발합니다.
이 장의 핵심
  • 모집단은 관심 대상 전체, 표본은 그 중 실제로 조사한 일부이다.
  • 무작위 추출(random sampling)이 편향 없는 추정의 전제 조건이다.
  • 표준오차 SE = sigma/sqrt(n)으로, 표본이 클수록 추정이 정밀해진다.
  • 정밀도를 2배 높이려면 표본을 4배 늘려야 한다 (수확 체감).
  • 추출 방법(SRS, 층화, 군집, 편의)에 따라 편향과 분산이 달라진다.

다음 장 예고: 표본에서 계산한 값이 정확히 모수는 아닙니다. 그렇다면 "이 범위 안에 모수가 있다"고 말할 수 있을까요? 9장에서는 신뢰구간을 배웁니다 -- "95% 확신"의 진짜 의미를 알게 됩니다.