분포의 모양 -- 정규분포는 왜 특별한가?
중심극한정리의 마법
왜 세상의 그렇게 많은 것들이 종 모양 곡선을 따르는가?
사람의 키, 시험 점수, 공장에서 생산되는 부품의 무게, 주식의 일일 수익률 -- 전혀 관련 없어 보이는 현상들이 놀랍도록 비슷한 형태의 분포를 보입니다. 가운데가 볼록하고 양쪽이 대칭적으로 내려가는 종 모양(bell curve).
이것은 우연이 아닙니다. 그 뒤에는 중심극한정리(Central Limit Theorem)라는 통계학에서 가장 강력하고 아름다운 정리가 숨어 있습니다.
이 장에서는 다양한 확률분포를 직접 탐험하고, 중심극한정리가 작동하는 과정을 눈으로 확인하며, 정규분포를 자유자재로 다루는 능력을 키웁니다.
확률분포란 무엇인가
확률분포(probability distribution)는 어떤 변수가 가질 수 있는 값들과 각 값이 나타날 확률을 체계적으로 정리한 것입니다. 히스토그램을 떠올리면 됩니다 -- 데이터가 무한히 많아지면 히스토그램은 매끈한 곡선이 됩니다. 그것이 바로 확률밀도함수(PDF)입니다.
Interactive 1: 분포 갤러리
다양한 확률분포를 직접 생성하고 비교해보세요. 분포를 선택하면 1,000개의 난수를 생성하여 히스토그램과 이론적 곡선을 함께 보여줍니다.
- 다섯 가지 분포를 모두 생성해보고, 모양의 차이를 관찰하세요.
- 지수분포에서 lambda를 1, 3, 10으로 바꿔보세요. 어떤 변화가 생기나요?
- 이항분포에서 p=0.5일 때와 p=0.1일 때, 분포의 대칭성이 어떻게 달라지나요?
- 어떤 분포가 정규분포와 가장 비슷한 모양인가요? 조건은 무엇인가요?
Interactive 2: 중심극한정리 실험실
통계학에서 가장 놀라운 정리를 직접 눈으로 확인합니다. 어떤 모양의 모집단에서 표본을 뽑든, 표본평균의 분포는 정규분포에 수렴합니다.
주사위 비유로 이해하기: 주사위 1개를 던지면 1, 2, 3, 4, 5, 6이 동일한 확률로 나옵니다. 완전히 평평한 균등분포죠. 그런데 주사위를 2개 던져서 평균을 구하면? 3.5 근처 값이 좀 더 자주 나옵니다. 10개를 던져서 평균을 구하면? 3.5 근처에 더 몰립니다. 100개를 던져서 평균을 구하면? 놀랍게도 평균값들의 분포가 예쁜 종 모양이 됩니다! 쉽게 말하면, 개별 값은 아무 모양이나 될 수 있지만, "많이 뽑아서 평균 낸 것"은 언제나 종 모양에 가까워집니다.
- "지수분포"를 선택하고 n=2로 설정하세요. 500번 추출 후 표본평균의 분포가 정규분포인가요?
- 같은 지수분포에서 n=30으로 바꾸세요. 차이가 보이나요?
- "이봉분포"(낙타등 모양)에서 n=50으로 실험하세요. 원래 분포와 표본평균 분포를 비교하세요.
- 표본평균의 표준편차(실측값)와 이론값(sigma/sqrt(n))을 비교하세요. 얼마나 가까운가요?
X ~ (mu, sigma^2) 일 때, 표본평균 X_bar의 분포:
X_bar ~ N(mu, sigma^2 / n) (n이 충분히 클 때)
표준오차(SE) = sigma / sqrt(n)
쉽게 말하면: 표본을 많이 뽑을수록(n이 클수록) 표본평균은 진짜 평균(mu) 근처에 촘촘하게 모이고, 그 모이는 형태는 항상 정규분포(종 모양)입니다. sigma/sqrt(n)은 "표본평균이 진짜 평균 주변에서 얼마나 흔들리는가"를 나타냅니다.
Interactive 3: 정규분포 탐색기
정규분포의 핵심 두 매개변수 -- 평균(mu)과 표준편차(sigma) --를 조절하면서 곡선의 변화를 관찰하고, 특정 구간의 확률을 계산합니다.
쉽게 말하면, "많은 작은 원인들이 더해져서 만들어지는 결과"는 거의 항상 종 모양입니다.
f(x) = (1 / (sigma * sqrt(2*pi))) * exp(-(x - mu)^2 / (2 * sigma^2))
쉽게 말하면, 이 공식은 "평균에서 멀어질수록 확률이 급격히 줄어드는 종 모양 곡선"을 수학적으로 표현한 것입니다.
Z점수 변환:
Z = (X - mu) / sigma
Z점수는 "평균에서 표준편차 몇 개만큼 떨어져 있는가"를 나타냅니다.
-- 키가 179cm인 사람: Z = (179 - 173) / 6 = +1.0 (평균보다 표준편차 1개만큼 큰 편)
-- 키가 185cm인 사람: Z = (185 - 173) / 6 = +2.0 (상위 약 2.5%, 꽤 큰 편)
-- 키가 167cm인 사람: Z = (167 - 173) / 6 = -1.0 (평균보다 표준편차 1개만큼 작은 편)
-- 키가 191cm인 사람: Z = (191 - 173) / 6 = +3.0 (상위 약 0.13%, 매우 드문 경우)
쉽게 말하면, Z점수는 "이 값이 얼마나 특이한가"를 숫자 하나로 알려주는 도구입니다. Z가 -2에서 +2 사이이면 "평범한 범위", 그 바깥이면 "꽤 드문 값"으로 생각할 수 있습니다.
Z점수 계산기
원점수를 입력하면 Z점수와 백분위를 계산합니다 (위 슬라이더의 mu, sigma 기준).
- mu=100, sigma=15 (IQ 분포)로 설정하세요. IQ 130 이상의 비율은?
- 68-95-99.7 규칙을 확인하세요: mu +/- 1*sigma, 2*sigma, 3*sigma 구간의 확률을 계산하세요.
- sigma를 5에서 30으로 바꿔보세요. 곡선의 모양이 어떻게 변하나요?
- Z점수가 2 이상인 점수는 무엇인가요? 그것이 "이상치"로 간주될 수 있을까요?
Interactive 4: QQ-Plot으로 정규성 진단
데이터가 정규분포를 따르는지 시각적으로 판단하는 가장 효과적인 도구가 QQ-플롯(Quantile-Quantile Plot)입니다. 점들이 대각선에 가까우면 정규분포, 벗어나면 비정규입니다.
- 정규분포 데이터의 QQ-플롯을 확인하세요. 대각선에 얼마나 가까운가요?
- 지수분포 데이터의 QQ-플롯은 어떤 형태인가요? 왜 그런가요?
- 같은 분포에서 n=50과 n=1000을 비교하세요. 데이터 수가 많을수록 패턴이 선명한가요?
- t분포(df=3)의 QQ-플롯에서 양 끝이 대각선에서 벗어나는 이유를 생각해보세요.
- 확률분포는 데이터가 취할 수 있는 값과 그 확률을 체계화한 것이다.
- 정규분포는 평균과 표준편차 두 매개변수로 완전히 결정된다.
- Z점수는 원점수를 표준화하여 서로 다른 척도의 값을 비교 가능하게 한다.
- 중심극한정리: 모집단의 형태와 무관하게 표본평균은 정규분포에 수렴한다.
- QQ-플롯으로 데이터의 정규성을 시각적으로 진단할 수 있다.
다음 장 예고: 정규분포를 이해했으니, 이제 두 변수 사이의 관계를 탐구합니다. 산점도, 상관계수, 그리고 "상관은 인과가 아니다"라는 통계학의 가장 중요한 경고를 배웁니다.