PART 1 · 4장

데이터의 퍼짐 — 같은 평균, 전혀 다른 세상

분산, 표준편차, 변동계수

두 펀드의 평균 수익률이 같은데 왜 하나는 안전하고 하나는 위험한가?

A펀드와 B펀드의 연평균 수익률이 모두 8%입니다. 투자자 입장에서 둘은 같은 상품일까요?

A펀드의 월별 수익률: 7%, 8%, 9%, 7%, 8%, 9%, 7%, 8%, 9%, 7%, 8%, 9%
B펀드의 월별 수익률: -20%, 30%, -15%, 25%, -10%, 20%, 40%, -25%, 15%, 10%, -5%, 31%

평균은 같지만 B펀드는 롤러코스터입니다. 투자금이 반토막 날 위험이 있습니다. 이 "위험"을 숫자로 측정하는 것이 바로 산포도(spread)입니다.

이 장에서는 분산, 표준편차, IQR, 변동계수를 배우고, "같은 평균이라도 퍼짐이 다르면 완전히 다른 세상"이라는 것을 체험합니다.

평균이 같아도 분포가 다르다: 시험 점수 비유

두 반이 수학 시험을 봤습니다. 두 반 모두 평균이 75점입니다.

A반: 73, 74, 75, 76, 77 → 모든 학생이 비슷한 점수. 차이가 거의 없음.
B반: 30, 50, 75, 100, 120 → 점수가 천차만별. 어떤 학생은 30점, 어떤 학생은 120점.

평균은 둘 다 75점이지만, A반은 "모두가 비슷한 실력"이고 B반은 "잘하는 학생과 못하는 학생이 극단적으로 갈린 상태"입니다.

쉽게 말하면: 평균이 데이터의 "중심"을 알려준다면, 산포(퍼짐)는 데이터가 그 중심에서 얼마나 흩어져 있는지를 알려줍니다. 중심만 보면 A반과 B반이 같지만, 퍼짐까지 보면 전혀 다른 세상입니다.

왜 이것이 중요한가? 평균만 보고 의사결정을 하면 큰 실수를 합니다. "평균 배달 시간 30분"이라는 정보만으로는 부족합니다. A업체가 항상 28~32분에 도착하고, B업체가 10분에 오기도 하고 60분에 오기도 한다면, 여러분은 어느 업체를 선택하시겠습니까? 산포를 아는 것 = 불확실성을 아는 것 = 더 현명한 결정입니다.

산포를 측정하는 도구들

분산을 단계별로 계산해 봅시다 -- 아주 작은 예시

데이터: 2, 4, 4, 4, 6 (5개의 숫자)

1단계: 평균을 구한다.
(2+4+4+4+6) / 5 = 20/5 = 4

2단계: 각 값에서 평균을 뺀다 (편차).
2-4 = -2, 4-4 = 0, 4-4 = 0, 4-4 = 0, 6-4 = +2

3단계: 편차를 제곱한다.
(-2)² = 4, 0² = 0, 0² = 0, 0² = 0, (+2)² = 4

4단계: 제곱한 값의 평균을 구한다 → 이것이 분산.
(4+0+0+0+4) / 5 = 8/5 = 1.6

5단계: 분산에 제곱근을 씌운다 → 이것이 표준편차.
√1.6 = 1.26

쉽게 말하면: 표준편차 1.26이란, 각 데이터가 평균(4)에서 평균적으로 약 1.26만큼 떨어져 있다는 뜻입니다.

분산(Variance) = Σ(xᵢ - x̄)² / n
쉽게 말하면: "각 값이 평균에서 얼마나 떨어져 있는지"의 제곱 평균

표준편차(SD) = √분산 = √{Σ(xᵢ - x̄)² / n}
쉽게 말하면: "평균으로부터 평균적으로 얼마나 떨어져 있는가" -- 원래 단위로 되돌린 것

변동계수(CV) = 표준편차 / 평균 x 100%
쉽게 말하면: "평균 대비 몇 %나 흩어져 있는가" -- 단위가 다른 것끼리 비교할 때 사용

왜 제곱하는가? -- 두 가지 이유

각 값에서 평균을 뺀 "편차(deviation)"를 그냥 더하면 양수와 음수가 상쇄되어 항상 0이 됩니다. (위 예시에서: -2 + 0 + 0 + 0 + 2 = 0)

이 문제를 해결하는 방법은 두 가지입니다:
방법 1 -- 절댓값 사용 (MAD): |-2| + |0| + |0| + |0| + |2| = 4. 이것도 작동합니다.
방법 2 -- 제곱 사용 (분산): (-2)² + 0 + 0 + 0 + (+2)² = 8. 이것도 작동합니다.

통계학에서 제곱을 선호하는 이유:
1. 수학적 편의성: 제곱 함수는 미분이 깔끔하여 수학적 증명에 유리합니다.
2. 큰 편차에 더 큰 벌점: 평균에서 2만큼 떨어진 값은 1만큼 떨어진 값의 4배(2²=4) 벌점을 받습니다. 즉, 극단적으로 튀는 값에 더 민감하게 반응합니다.

범위(Range)

최대값 - 최소값. 가장 단순하지만 극단값에 매우 민감.

위 예시: 6 - 2 = 4. 하지만 하나의 극단값이 범위를 크게 바꿀 수 있습니다.

IQR (사분위간 범위)

Q3 - Q1. 가운데 50% 데이터의 퍼짐. 이상치에 강건.

쉽게 말하면: 데이터를 4등분했을 때, 하위 25%~상위 25%를 제외한 중간 50% 데이터가 차지하는 범위입니다. 양 끝의 극단값을 무시하므로 이상치의 영향을 받지 않습니다.

변동계수(CV): 키와 체중을 비교할 수 없는 이유

반 학생들의 키의 표준편차가 5cm이고, 체중의 표준편차가 5kg이라고 합시다. "둘 다 표준편차가 5이니 퍼짐이 같다"고 말할 수 있을까요?

그렇지 않습니다. 키 평균이 170cm일 때 5cm는 약 3%의 변동이지만, 체중 평균이 60kg일 때 5kg은 약 8%의 변동입니다. 체중이 키보다 상대적으로 훨씬 더 흩어져 있는 것입니다.

이처럼 단위가 다르거나 평균이 크게 다른 변수의 퍼짐을 비교하려면, 표준편차를 평균으로 나눈 변동계수(CV)를 사용해야 합니다.
키 CV = 5/170 x 100% = 2.9%, 체중 CV = 5/60 x 100% = 8.3% → 체중이 상대적으로 약 3배 더 흩어져 있습니다.

표준편차가 큰 것이 나쁜 것은 아닙니다. 투자에서 표준편차가 크면 "위험"이지만, 신약 개발에서 효과의 표준편차가 크면 "일부 환자에게 매우 효과적"일 수 있습니다. 맥락이 중요합니다.

실습 1: 같은 평균, 다른 퍼짐

두 데이터셋의 평균을 동일하게 유지하면서 표준편차(퍼짐)만 조절합니다. 슬라이더로 각 분포의 퍼짐을 바꿔보세요.

실습 목표: 두 분포의 퍼짐이 달라지면 어떤 통계량이 바뀌는지 관찰하세요. 분산, 표준편차, IQR, 범위가 각각 어떻게 반응하는지 비교합니다.

분포 A

퍼짐 (SD): 10

분포 B

퍼짐 (SD): 25

평균 A

SD A

IQR A

범위 A

평균 B

SD B

IQR B

범위 B

표준편차를 직관적으로 이해하기

"평균으로부터 평균적으로 얼마나 떨어져 있는가"

표준편차의 정의를 한 문장으로 요약하면 이것입니다. 분산은 편차의 제곱 평균이므로 단위가 "제곱"이 되어 직관적이지 않습니다. (시험 점수의 분산은 "점²"이라는 이상한 단위가 됩니다.)

표준편차는 여기에 제곱근을 씌워서 원래 단위로 되돌린 것입니다. 시험 점수의 표준편차가 10점이면, "학생들의 점수는 평균에서 대략 10점 정도 떨어져 있다"고 해석합니다.

비유: 표준편차는 "대략적인 평균 거리"와 같습니다. 학교에서 집까지의 거리가 학생마다 다를 때, "평균적으로 학교에서 약 2km 떨어진 곳에 산다"라고 말하는 것과 비슷합니다.

실습 2: 주식 변동성 시뮬레이터

삼성전자(안정형)와 가상 스타트업(고변동)의 1년(252거래일) 주가를 시뮬레이션합니다. 두 종목의 평균 일별 수익률은 동일(+0.03%)하지만, 변동성이 다릅니다.

실습 목표: "실행" 버튼을 여러 번 눌러보세요. 같은 평균 수익률이라도 결과가 매번 크게 달라지는 종목은 어느 쪽인가요?

삼성전자 변동성: 스타트업 변동성:

삼성전자 최종 수익률

스타트업 최종 수익률

삼성전자 최대 낙폭

Max Drawdown

스타트업 최대 낙폭

Max Drawdown

변동성 끌림(Volatility Drag): 수학적으로 -50% 후 +50%는 원금 회복이 아니라 -25%입니다. (100만원 -> 50만원 -> 75만원) 변동성이 클수록 이 "끌림" 효과가 커져서, 같은 평균 수익률이라도 누적 수익률은 낮아집니다. 이것이 분산의 실질적 위험입니다.

실습 3: 체비셰프 부등식과 경험적 규칙

데이터가 평균에서 1, 2, 3 표준편차 안에 몇 %가 들어가는지 확인합니다. 정규분포에서는 유명한 68-95-99.7 규칙이 적용됩니다. 비정규분포에서는 체비셰프 부등식이 최소 보장을 제공합니다.

실습 목표: 분포를 바꿔가며 경험적 규칙(68-95-99.7)이 정규분포에서만 정확하고, 다른 분포에서는 체비셰프 부등식이 적용되는 것을 확인하세요.

분포 선택: 데이터 수:

범위	실제 비율	경험적 규칙 (정규분포)	체비셰프 하한	판정

체비셰프 부등식: 어떤 분포든 (형태에 상관없이) 평균에서 k 표준편차 이내에 최소 1 - 1/k²의 데이터가 존재합니다. k=2일 때 최소 75%, k=3일 때 최소 89%. 정규분포가 아닌 데이터에서 특히 유용한 보장입니다.

쉽게 말하면 -- 표준편차의 "거리 보증서"

표준편차를 "거리의 단위"로 생각해 보세요. 평균이 100이고 표준편차가 10이라면, "1 표준편차"는 90~110 범위입니다.

경험적 규칙 (정규분포일 때만):
-- 1 표준편차 이내 (90~110): 약 68%의 데이터
-- 2 표준편차 이내 (80~120): 약 95%의 데이터
-- 3 표준편차 이내 (70~130): 약 99.7%의 데이터

체비셰프 부등식 (어떤 분포든):
-- 2 표준편차 이내: 최소 75%의 데이터 (정규분포면 95%)
-- 3 표준편차 이내: 최소 89%의 데이터 (정규분포면 99.7%)

분포 모양을 모를 때에도 체비셰프 부등식은 "최소한 이 정도는 보장한다"고 말해 줍니다.

상자그림(Box Plot)의 해부학

상자그림은 데이터의 중심, 퍼짐, 비대칭성, 이상치를 한 장의 그림으로 보여주는 강력한 도구입니다. 복잡해 보이지만, 각 부분의 의미를 알면 매우 직관적입니다.

상자그림의 5가지 구성 요소

1. 상자(Box)의 아래쪽 변 = Q1 (제1사분위수)
데이터를 작은 순서로 정렬했을 때, 하위 25% 지점입니다. "하위 25%의 학생까지는 이 점수 이하"라는 의미입니다.

2. 상자 안의 선 = Q2 (중앙값)
데이터의 정가운데 값입니다. 50% 지점.

3. 상자의 위쪽 변 = Q3 (제3사분위수)
상위 25% 지점입니다. "상위 25%의 학생은 이 점수 이상"이라는 의미입니다.

4. 수염(Whisker) = 상자에서 최대 1.5 x IQR까지 뻗어나간 선
수염의 끝은 "극단적이지 않은 데이터의 범위"를 나타냅니다.

5. 점(Outlier) = 수염 밖의 데이터
수염보다 더 멀리 떨어진 값은 이상치로 표시됩니다. 입력 오류이거나, 진짜 특이한 사례일 수 있습니다.

IQR(사분위간 범위) = Q3 - Q1: 상자의 높이가 바로 IQR입니다. 이것이 중간 50% 데이터가 차지하는 범위입니다.

상자그림 읽는 법 요약
-- 상자가 좁으면: 데이터가 중심 근처에 모여 있음 (퍼짐이 작음)
-- 상자가 넓으면: 데이터가 넓게 퍼져 있음
-- 중앙선이 상자 가운데 있으면: 대칭 분포
-- 중앙선이 아래쪽에 치우쳐 있으면: 오른쪽 꼬리 분포 (고소득 분포처럼)
-- 점(이상치)이 많으면: 극단값이 자주 발생하는 데이터

실습 4: 상자그림(Box Plot) 만들기

데이터를 입력하거나 자동 생성하여 상자그림을 그립니다. Q1, Q2(중앙값), Q3, 수염(whisker), 이상치가 어떻게 결정되는지 직접 확인하세요.

실습 목표: 두 그룹의 상자그림을 나란히 비교합니다. 상자의 너비(IQR), 중앙선 위치, 수염 길이, 이상치 점의 의미를 이해하세요.

그룹 A 분포: 그룹 B 분포:

Q2 (중앙값)

IQR

Q2 (중앙값)

IQR

직접 데이터 입력

쉼표로 구분하여 숫자를 입력하세요. 입력한 데이터로 그룹 A의 상자그림을 그립니다.

경영에서 산포의 활용

품질 관리: 제조업에서 제품 규격의 표준편차가 작을수록 품질이 안정적입니다. 6시그마(Six Sigma) 경영은 "불량률을 100만 개당 3.4개 이하로"라는 목표이며, 이는 프로세스의 산포를 극도로 줄이는 것입니다.

투자 위험: 포트폴리오의 표준편차 = 위험. 샤프 비율(Sharpe Ratio)은 수익률 / 표준편차로, "위험 한 단위당 얼마의 수익을 얻는가"를 측정합니다.

인사 관리: 직원 성과 평가 점수의 변동계수(CV)를 부서별로 비교하면, 어느 부서가 성과 편차가 큰지 파악할 수 있습니다. 평균이 다른 부서를 비교할 때는 표준편차가 아니라 CV를 사용해야 합니다.

마케팅: A/B 테스트에서 전환율의 표준편차가 크면 "아직 데이터가 부족하다"는 신호입니다. 표준오차가 작아질 때까지 실험을 계속해야 합니다.

이 장의 핵심

평균만으로는 데이터를 이해할 수 없다. 반드시 퍼짐도 함께 보아야 한다.
분산은 편차의 제곱 평균이고, 표준편차는 그 제곱근이다.
IQR은 이상치에 강건한 산포 측정치이다.
변동계수(CV)는 평균이 다른 그룹의 퍼짐을 비교할 때 사용한다.
체비셰프 부등식은 분포 형태에 관계없이 적용되는 최소 보장이다.
상자그림은 중심, 퍼짐, 비대칭성, 이상치를 한눈에 보여주는 강력한 도구이다.

다음 장 예고: 중심과 퍼짐을 알았으니, 이제 분포의 "모양" 전체를 배울 차례입니다. 정규분포가 왜 특별한지, 중심극한정리의 마법을 체험합니다.

← 목차로 돌아가기