PART 1 · 5장

분포의 모양 -- 정규분포는 왜 특별한가?

중심극한정리의 마법

왜 세상의 그렇게 많은 것들이 종 모양 곡선을 따르는가?

사람의 키, 시험 점수, 공장에서 생산되는 부품의 무게, 주식의 일일 수익률 -- 전혀 관련 없어 보이는 현상들이 놀랍도록 비슷한 형태의 분포를 보입니다. 가운데가 볼록하고 양쪽이 대칭적으로 내려가는 종 모양(bell curve).

이것은 우연이 아닙니다. 그 뒤에는 중심극한정리(Central Limit Theorem)라는 통계학에서 가장 강력하고 아름다운 정리가 숨어 있습니다.

이 장에서는 다양한 확률분포를 직접 탐험하고, 중심극한정리가 작동하는 과정을 눈으로 확인하며, 정규분포를 자유자재로 다루는 능력을 키웁니다.

확률분포란 무엇인가

확률분포(probability distribution)는 어떤 변수가 가질 수 있는 값들과 각 값이 나타날 확률을 체계적으로 정리한 것입니다. 히스토그램을 떠올리면 됩니다 -- 데이터가 무한히 많아지면 히스토그램은 매끈한 곡선이 됩니다. 그것이 바로 확률밀도함수(PDF)입니다.

"분포"란 쉽게 말하면: 값들이 어떤 패턴으로 흩어져 있는가를 보여주는 지도입니다. 교실에서 학생 30명의 키를 재봤다고 합시다. 160cm 근처에 몰려 있을까요? 150cm부터 180cm까지 고르게 퍼져 있을까요? 아니면 160cm와 175cm 두 곳에 봉우리가 있을까요? 이런 "흩어짐의 패턴"이 바로 분포입니다.

히스토그램 읽는 법: 히스토그램에서 막대의 높이 = 그 구간에 속하는 데이터 수입니다. 예를 들어 키 데이터를 5cm 간격으로 나눴을 때, 165~170cm 막대가 가장 높다면 그 구간에 학생이 가장 많다는 뜻입니다. 막대들의 높낮이 패턴을 보면 데이터의 분포 모양을 직관적으로 파악할 수 있습니다. 쉽게 말하면, 히스토그램은 "어디에 데이터가 많이 몰려 있는가"를 눈으로 보여주는 도구입니다.

왜 분포가 중요한가: 분포를 알면 아직 관측하지 않은 값이 나올 확률을 예측할 수 있습니다. "이 공장 제품의 불량률이 3% 이하일 확률은?", "이번 달 매출이 1억을 넘길 확률은?" -- 이런 질문에 답하려면 데이터의 분포를 알아야 합니다.

Interactive 1: 분포 갤러리

다양한 확률분포를 직접 생성하고 비교해보세요. 분포를 선택하면 1,000개의 난수를 생성하여 히스토그램과 이론적 곡선을 함께 보여줍니다.

분포 선택:

평균 (Mean)

표준편차 (SD)

왜도 (Skewness)

첨도 (Kurtosis)

실습 과제:

다섯 가지 분포를 모두 생성해보고, 모양의 차이를 관찰하세요.
지수분포에서 lambda를 1, 3, 10으로 바꿔보세요. 어떤 변화가 생기나요?
이항분포에서 p=0.5일 때와 p=0.1일 때, 분포의 대칭성이 어떻게 달라지나요?
어떤 분포가 정규분포와 가장 비슷한 모양인가요? 조건은 무엇인가요?

핵심 관찰: 균등분포는 평평하고, 지수분포는 오른쪽 꼬리가 길며, 정규분포는 대칭적인 종 모양입니다. 이항분포에서 n이 크고 p가 0.5에 가까우면 정규분포와 비슷해집니다 -- 이것이 중심극한정리의 단서입니다.

Interactive 2: 중심극한정리 실험실

통계학에서 가장 놀라운 정리를 직접 눈으로 확인합니다. 어떤 모양의 모집단에서 표본을 뽑든, 표본평균의 분포는 정규분포에 수렴합니다.

중심극한정리 (CLT): 모집단의 분포가 무엇이든, 표본 크기 n이 충분히 크면 표본평균 X의 분포는 평균 mu, 표준편차 sigma/sqrt(n)인 정규분포에 근사합니다. 모집단이 정규분포가 아니어도 됩니다. 이것이 "마법"입니다.

주사위 비유로 이해하기: 주사위 1개를 던지면 1, 2, 3, 4, 5, 6이 동일한 확률로 나옵니다. 완전히 평평한 균등분포죠. 그런데 주사위를 2개 던져서 평균을 구하면? 3.5 근처 값이 좀 더 자주 나옵니다. 10개를 던져서 평균을 구하면? 3.5 근처에 더 몰립니다. 100개를 던져서 평균을 구하면? 놀랍게도 평균값들의 분포가 예쁜 종 모양이 됩니다! 쉽게 말하면, 개별 값은 아무 모양이나 될 수 있지만, "많이 뽑아서 평균 낸 것"은 언제나 종 모양에 가까워집니다.

CLT가 왜 그렇게 중요한가: 현실 세계에서 모집단의 정확한 분포 모양을 아는 경우는 거의 없습니다. 소득 분포는 오른쪽으로 꼬리가 길고, 대기 시간은 지수분포를 따르고, 불량률은 이항분포입니다. 제각각이죠. 그런데 CLT 덕분에 모집단이 어떤 모양이든, 표본 평균은 정규분포에 가까워집니다. 이것이 왜 대단하냐면, 정규분포 하나만 잘 이해하면 거의 모든 상황에서 추론이 가능해지기 때문입니다. 신뢰구간, 가설검정 -- 추론 통계의 거의 모든 것이 CLT 위에 서 있습니다.

모집단 형태:

표본 크기 (n): n=30 속도: 50ms

추출 횟수: 0

모집단 분포

표본평균의 분포 (쌓이는 중...)

모집단 평균

모집단 SD

표본평균의 평균

표본평균의 SD

이론값: sigma/sqrt(n)

실습 과제:

"지수분포"를 선택하고 n=2로 설정하세요. 500번 추출 후 표본평균의 분포가 정규분포인가요?
같은 지수분포에서 n=30으로 바꾸세요. 차이가 보이나요?
"이봉분포"(낙타등 모양)에서 n=50으로 실험하세요. 원래 분포와 표본평균 분포를 비교하세요.
표본평균의 표준편차(실측값)와 이론값(sigma/sqrt(n))을 비교하세요. 얼마나 가까운가요?

중심극한정리:
X ~ (mu, sigma^2) 일 때, 표본평균 X_bar의 분포:
X_bar ~ N(mu, sigma^2 / n) (n이 충분히 클 때)
표준오차(SE) = sigma / sqrt(n)

쉽게 말하면: 표본을 많이 뽑을수록(n이 클수록) 표본평균은 진짜 평균(mu) 근처에 촘촘하게 모이고, 그 모이는 형태는 항상 정규분포(종 모양)입니다. sigma/sqrt(n)은 "표본평균이 진짜 평균 주변에서 얼마나 흔들리는가"를 나타냅니다.

비즈니스 의미: "이번 달 평균 매출이 정상 범위인가?" 같은 질문에 답하려면, 표본평균이 어떤 분포를 따르는지 알아야 합니다. CLT 덕분에 모집단이 정규분포가 아니어도 표본평균에 대해 정규분포 기반 추론을 할 수 있습니다. 이것이 신뢰구간, 가설검정 등 거의 모든 추론 통계의 기초입니다.

Interactive 3: 정규분포 탐색기

정규분포의 핵심 두 매개변수 -- 평균(mu)과 표준편차(sigma) --를 조절하면서 곡선의 변화를 관찰하고, 특정 구간의 확률을 계산합니다.

정규분포 -- 자연에서 가장 흔한 패턴: 사람의 키, 체중, 시험 점수, 공장 부품의 무게, 측정 오차 -- 이런 것들은 모두 가운데가 볼록하고 양 끝이 대칭적으로 줄어드는 종 모양을 따릅니다. 왜 그럴까요? 이런 값들은 수많은 작은 요인들(유전자, 환경, 노력, 운 등)이 합쳐져서 만들어지기 때문입니다. 많은 요인이 합쳐지면 중심극한정리에 의해 결과가 정규분포에 가까워집니다.

쉽게 말하면, "많은 작은 원인들이 더해져서 만들어지는 결과"는 거의 항상 종 모양입니다.

평균 (mu): mu=50 표준편차 (sigma): sigma=15

구간 시작 (a): 구간 끝 (b):

P(a < X < b)

Z(a)

하한 Z점수

Z(b)

상한 Z점수

정규분포 확률밀도함수 (PDF):
f(x) = (1 / (sigma * sqrt(2*pi))) * exp(-(x - mu)^2 / (2 * sigma^2))

쉽게 말하면, 이 공식은 "평균에서 멀어질수록 확률이 급격히 줄어드는 종 모양 곡선"을 수학적으로 표현한 것입니다.

Z점수 변환:
Z = (X - mu) / sigma
Z점수는 "평균에서 표준편차 몇 개만큼 떨어져 있는가"를 나타냅니다.

Z점수를 키(신장)로 이해하기: 한국 성인 남성의 평균 키가 173cm이고 표준편차가 6cm이라고 합시다.
-- 키가 179cm인 사람: Z = (179 - 173) / 6 = +1.0 (평균보다 표준편차 1개만큼 큰 편)
-- 키가 185cm인 사람: Z = (185 - 173) / 6 = +2.0 (상위 약 2.5%, 꽤 큰 편)
-- 키가 167cm인 사람: Z = (167 - 173) / 6 = -1.0 (평균보다 표준편차 1개만큼 작은 편)
-- 키가 191cm인 사람: Z = (191 - 173) / 6 = +3.0 (상위 약 0.13%, 매우 드문 경우)

쉽게 말하면, Z점수는 "이 값이 얼마나 특이한가"를 숫자 하나로 알려주는 도구입니다. Z가 -2에서 +2 사이이면 "평범한 범위", 그 바깥이면 "꽤 드문 값"으로 생각할 수 있습니다.

Z점수 계산기

원점수를 입력하면 Z점수와 백분위를 계산합니다 (위 슬라이더의 mu, sigma 기준).

원점수 (X):

Z점수

백분위

해당 값 이하의 비율

해석

실습 과제:

mu=100, sigma=15 (IQ 분포)로 설정하세요. IQ 130 이상의 비율은?
68-95-99.7 규칙을 확인하세요: mu +/- 1*sigma, 2*sigma, 3*sigma 구간의 확률을 계산하세요.
sigma를 5에서 30으로 바꿔보세요. 곡선의 모양이 어떻게 변하나요?
Z점수가 2 이상인 점수는 무엇인가요? 그것이 "이상치"로 간주될 수 있을까요?

68-95-99.7 규칙: 정규분포에서 평균을 중심으로 +/- 1 표준편차 안에 약 68%, +/- 2 표준편차 안에 약 95%, +/- 3 표준편차 안에 약 99.7%의 데이터가 포함됩니다. 이 규칙만으로도 많은 실무적 판단이 가능합니다.

Interactive 4: QQ-Plot으로 정규성 진단

데이터가 정규분포를 따르는지 시각적으로 판단하는 가장 효과적인 도구가 QQ-플롯(Quantile-Quantile Plot)입니다. 점들이 대각선에 가까우면 정규분포, 벗어나면 비정규입니다.

QQ-플롯 읽는 법: X축은 이론적 정규분포의 분위수, Y축은 실제 데이터의 분위수입니다. 점들이 대각선 위에 착 달라붙으면 정규분포. S자 형태면 꼬리가 두꺼운 분포. 위로 휘어지면 오른쪽 꼬리가 긴 양의 왜도.

데이터 생성: 데이터 수:

히스토그램

QQ-Plot (vs 정규분포)

왜도

첨도

정규성 판정

실습 과제:

정규분포 데이터의 QQ-플롯을 확인하세요. 대각선에 얼마나 가까운가요?
지수분포 데이터의 QQ-플롯은 어떤 형태인가요? 왜 그런가요?
같은 분포에서 n=50과 n=1000을 비교하세요. 데이터 수가 많을수록 패턴이 선명한가요?
t분포(df=3)의 QQ-플롯에서 양 끝이 대각선에서 벗어나는 이유를 생각해보세요.

주의: QQ-플롯은 시각적 판단 도구이므로 주관적일 수 있습니다. 공식적인 정규성 검정(Shapiro-Wilk, Kolmogorov-Smirnov 등)과 함께 사용하는 것이 좋습니다. 하지만 검정 결과보다 QQ-플롯이 더 많은 정보를 줄 때가 많습니다 -- "어떻게" 비정규인지를 보여주기 때문입니다.

이 장의 핵심

확률분포는 데이터가 취할 수 있는 값과 그 확률을 체계화한 것이다.
정규분포는 평균과 표준편차 두 매개변수로 완전히 결정된다.
Z점수는 원점수를 표준화하여 서로 다른 척도의 값을 비교 가능하게 한다.
중심극한정리: 모집단의 형태와 무관하게 표본평균은 정규분포에 수렴한다.
QQ-플롯으로 데이터의 정규성을 시각적으로 진단할 수 있다.

다음 장 예고: 정규분포를 이해했으니, 이제 두 변수 사이의 관계를 탐구합니다. 산점도, 상관계수, 그리고 "상관은 인과가 아니다"라는 통계학의 가장 중요한 경고를 배웁니다.

← 목차로 돌아가기