데이터의 퍼짐 — 같은 평균, 전혀 다른 세상
분산, 표준편차, 변동계수
두 펀드의 평균 수익률이 같은데 왜 하나는 안전하고 하나는 위험한가?
A펀드와 B펀드의 연평균 수익률이 모두 8%입니다. 투자자 입장에서 둘은 같은 상품일까요?
A펀드의 월별 수익률: 7%, 8%, 9%, 7%, 8%, 9%, 7%, 8%, 9%, 7%, 8%, 9%
B펀드의 월별 수익률: -20%, 30%, -15%, 25%, -10%, 20%, 40%, -25%, 15%, 10%, -5%, 31%
평균은 같지만 B펀드는 롤러코스터입니다. 투자금이 반토막 날 위험이 있습니다. 이 "위험"을 숫자로 측정하는 것이 바로 산포도(spread)입니다.
이 장에서는 분산, 표준편차, IQR, 변동계수를 배우고, "같은 평균이라도 퍼짐이 다르면 완전히 다른 세상"이라는 것을 체험합니다.
평균이 같아도 분포가 다르다: 시험 점수 비유
두 반이 수학 시험을 봤습니다. 두 반 모두 평균이 75점입니다.
B반: 30, 50, 75, 100, 120 → 점수가 천차만별. 어떤 학생은 30점, 어떤 학생은 120점.
평균은 둘 다 75점이지만, A반은 "모두가 비슷한 실력"이고 B반은 "잘하는 학생과 못하는 학생이 극단적으로 갈린 상태"입니다.
쉽게 말하면: 평균이 데이터의 "중심"을 알려준다면, 산포(퍼짐)는 데이터가 그 중심에서 얼마나 흩어져 있는지를 알려줍니다. 중심만 보면 A반과 B반이 같지만, 퍼짐까지 보면 전혀 다른 세상입니다.
산포를 측정하는 도구들
데이터: 2, 4, 4, 4, 6 (5개의 숫자)
1단계: 평균을 구한다.
(2+4+4+4+6) / 5 = 20/5 = 4
2단계: 각 값에서 평균을 뺀다 (편차).
2-4 = -2, 4-4 = 0, 4-4 = 0, 4-4 = 0, 6-4 = +2
3단계: 편차를 제곱한다.
(-2)² = 4, 0² = 0, 0² = 0, 0² = 0, (+2)² = 4
4단계: 제곱한 값의 평균을 구한다 → 이것이 분산.
(4+0+0+0+4) / 5 = 8/5 = 1.6
5단계: 분산에 제곱근을 씌운다 → 이것이 표준편차.
√1.6 = 1.26
쉽게 말하면: 표준편차 1.26이란, 각 데이터가 평균(4)에서 평균적으로 약 1.26만큼 떨어져 있다는 뜻입니다.
쉽게 말하면: "각 값이 평균에서 얼마나 떨어져 있는지"의 제곱 평균
표준편차(SD) = √분산 = √{Σ(xᵢ - x̄)² / n}
쉽게 말하면: "평균으로부터 평균적으로 얼마나 떨어져 있는가" -- 원래 단위로 되돌린 것
변동계수(CV) = 표준편차 / 평균 x 100%
쉽게 말하면: "평균 대비 몇 %나 흩어져 있는가" -- 단위가 다른 것끼리 비교할 때 사용
각 값에서 평균을 뺀 "편차(deviation)"를 그냥 더하면 양수와 음수가 상쇄되어 항상 0이 됩니다. (위 예시에서: -2 + 0 + 0 + 0 + 2 = 0)
이 문제를 해결하는 방법은 두 가지입니다:
방법 1 -- 절댓값 사용 (MAD): |-2| + |0| + |0| + |0| + |2| = 4. 이것도 작동합니다.
방법 2 -- 제곱 사용 (분산): (-2)² + 0 + 0 + 0 + (+2)² = 8. 이것도 작동합니다.
통계학에서 제곱을 선호하는 이유:
1. 수학적 편의성: 제곱 함수는 미분이 깔끔하여 수학적 증명에 유리합니다.
2. 큰 편차에 더 큰 벌점: 평균에서 2만큼 떨어진 값은 1만큼 떨어진 값의 4배(2²=4) 벌점을 받습니다. 즉, 극단적으로 튀는 값에 더 민감하게 반응합니다.
범위(Range)
최대값 - 최소값. 가장 단순하지만 극단값에 매우 민감.
위 예시: 6 - 2 = 4. 하지만 하나의 극단값이 범위를 크게 바꿀 수 있습니다.
IQR (사분위간 범위)
Q3 - Q1. 가운데 50% 데이터의 퍼짐. 이상치에 강건.
쉽게 말하면: 데이터를 4등분했을 때, 하위 25%~상위 25%를 제외한 중간 50% 데이터가 차지하는 범위입니다. 양 끝의 극단값을 무시하므로 이상치의 영향을 받지 않습니다.
반 학생들의 키의 표준편차가 5cm이고, 체중의 표준편차가 5kg이라고 합시다. "둘 다 표준편차가 5이니 퍼짐이 같다"고 말할 수 있을까요?
그렇지 않습니다. 키 평균이 170cm일 때 5cm는 약 3%의 변동이지만, 체중 평균이 60kg일 때 5kg은 약 8%의 변동입니다. 체중이 키보다 상대적으로 훨씬 더 흩어져 있는 것입니다.
이처럼 단위가 다르거나 평균이 크게 다른 변수의 퍼짐을 비교하려면, 표준편차를 평균으로 나눈 변동계수(CV)를 사용해야 합니다.
키 CV = 5/170 x 100% = 2.9%, 체중 CV = 5/60 x 100% = 8.3% → 체중이 상대적으로 약 3배 더 흩어져 있습니다.
실습 1: 같은 평균, 다른 퍼짐
두 데이터셋의 평균을 동일하게 유지하면서 표준편차(퍼짐)만 조절합니다. 슬라이더로 각 분포의 퍼짐을 바꿔보세요.
분포 A
분포 B
표준편차를 직관적으로 이해하기
표준편차의 정의를 한 문장으로 요약하면 이것입니다. 분산은 편차의 제곱 평균이므로 단위가 "제곱"이 되어 직관적이지 않습니다. (시험 점수의 분산은 "점²"이라는 이상한 단위가 됩니다.)
표준편차는 여기에 제곱근을 씌워서 원래 단위로 되돌린 것입니다. 시험 점수의 표준편차가 10점이면, "학생들의 점수는 평균에서 대략 10점 정도 떨어져 있다"고 해석합니다.
비유: 표준편차는 "대략적인 평균 거리"와 같습니다. 학교에서 집까지의 거리가 학생마다 다를 때, "평균적으로 학교에서 약 2km 떨어진 곳에 산다"라고 말하는 것과 비슷합니다.
실습 2: 주식 변동성 시뮬레이터
삼성전자(안정형)와 가상 스타트업(고변동)의 1년(252거래일) 주가를 시뮬레이션합니다. 두 종목의 평균 일별 수익률은 동일(+0.03%)하지만, 변동성이 다릅니다.
실습 3: 체비셰프 부등식과 경험적 규칙
데이터가 평균에서 1, 2, 3 표준편차 안에 몇 %가 들어가는지 확인합니다. 정규분포에서는 유명한 68-95-99.7 규칙이 적용됩니다. 비정규분포에서는 체비셰프 부등식이 최소 보장을 제공합니다.
| 범위 | 실제 비율 | 경험적 규칙 (정규분포) | 체비셰프 하한 | 판정 |
|---|
표준편차를 "거리의 단위"로 생각해 보세요. 평균이 100이고 표준편차가 10이라면, "1 표준편차"는 90~110 범위입니다.
경험적 규칙 (정규분포일 때만):
-- 1 표준편차 이내 (90~110): 약 68%의 데이터
-- 2 표준편차 이내 (80~120): 약 95%의 데이터
-- 3 표준편차 이내 (70~130): 약 99.7%의 데이터
체비셰프 부등식 (어떤 분포든):
-- 2 표준편차 이내: 최소 75%의 데이터 (정규분포면 95%)
-- 3 표준편차 이내: 최소 89%의 데이터 (정규분포면 99.7%)
분포 모양을 모를 때에도 체비셰프 부등식은 "최소한 이 정도는 보장한다"고 말해 줍니다.
상자그림(Box Plot)의 해부학
상자그림은 데이터의 중심, 퍼짐, 비대칭성, 이상치를 한 장의 그림으로 보여주는 강력한 도구입니다. 복잡해 보이지만, 각 부분의 의미를 알면 매우 직관적입니다.
1. 상자(Box)의 아래쪽 변 = Q1 (제1사분위수)
데이터를 작은 순서로 정렬했을 때, 하위 25% 지점입니다. "하위 25%의 학생까지는 이 점수 이하"라는 의미입니다.
2. 상자 안의 선 = Q2 (중앙값)
데이터의 정가운데 값입니다. 50% 지점.
3. 상자의 위쪽 변 = Q3 (제3사분위수)
상위 25% 지점입니다. "상위 25%의 학생은 이 점수 이상"이라는 의미입니다.
4. 수염(Whisker) = 상자에서 최대 1.5 x IQR까지 뻗어나간 선
수염의 끝은 "극단적이지 않은 데이터의 범위"를 나타냅니다.
5. 점(Outlier) = 수염 밖의 데이터
수염보다 더 멀리 떨어진 값은 이상치로 표시됩니다. 입력 오류이거나, 진짜 특이한 사례일 수 있습니다.
IQR(사분위간 범위) = Q3 - Q1: 상자의 높이가 바로 IQR입니다. 이것이 중간 50% 데이터가 차지하는 범위입니다.
-- 상자가 좁으면: 데이터가 중심 근처에 모여 있음 (퍼짐이 작음)
-- 상자가 넓으면: 데이터가 넓게 퍼져 있음
-- 중앙선이 상자 가운데 있으면: 대칭 분포
-- 중앙선이 아래쪽에 치우쳐 있으면: 오른쪽 꼬리 분포 (고소득 분포처럼)
-- 점(이상치)이 많으면: 극단값이 자주 발생하는 데이터
실습 4: 상자그림(Box Plot) 만들기
데이터를 입력하거나 자동 생성하여 상자그림을 그립니다. Q1, Q2(중앙값), Q3, 수염(whisker), 이상치가 어떻게 결정되는지 직접 확인하세요.
직접 데이터 입력
쉼표로 구분하여 숫자를 입력하세요. 입력한 데이터로 그룹 A의 상자그림을 그립니다.
경영에서 산포의 활용
투자 위험: 포트폴리오의 표준편차 = 위험. 샤프 비율(Sharpe Ratio)은 수익률 / 표준편차로, "위험 한 단위당 얼마의 수익을 얻는가"를 측정합니다.
인사 관리: 직원 성과 평가 점수의 변동계수(CV)를 부서별로 비교하면, 어느 부서가 성과 편차가 큰지 파악할 수 있습니다. 평균이 다른 부서를 비교할 때는 표준편차가 아니라 CV를 사용해야 합니다.
마케팅: A/B 테스트에서 전환율의 표준편차가 크면 "아직 데이터가 부족하다"는 신호입니다. 표준오차가 작아질 때까지 실험을 계속해야 합니다.
- 평균만으로는 데이터를 이해할 수 없다. 반드시 퍼짐도 함께 보아야 한다.
- 분산은 편차의 제곱 평균이고, 표준편차는 그 제곱근이다.
- IQR은 이상치에 강건한 산포 측정치이다.
- 변동계수(CV)는 평균이 다른 그룹의 퍼짐을 비교할 때 사용한다.
- 체비셰프 부등식은 분포 형태에 관계없이 적용되는 최소 보장이다.
- 상자그림은 중심, 퍼짐, 비대칭성, 이상치를 한눈에 보여주는 강력한 도구이다.
다음 장 예고: 중심과 퍼짐을 알았으니, 이제 분포의 "모양" 전체를 배울 차례입니다. 정규분포가 왜 특별한지, 중심극한정리의 마법을 체험합니다.