PART 1 · 3장

데이터의 중심 — 평균은 거짓말을 한다

평균, 중앙값, 최빈값의 함정

한국 평균 연봉이 4,200만원인데 왜 대부분이 그 이하를 받는가?

통계청에 따르면 한국 근로자의 평균 연봉은 약 4,200만원입니다. 하지만 이 숫자를 듣고 "나도 그 정도 받겠지"라고 생각하면 큰 착각입니다. 실제로 근로자의 약 65%가 평균 이하의 연봉을 받고 있습니다.

어떻게 "평균"인데 대부분이 그 아래에 있을 수 있을까요? 그 비밀은 소득 분포의 오른쪽 꼬리에 있습니다. 소수의 고소득자가 평균을 끌어올리기 때문입니다.

이 장에서는 데이터의 "중심"을 나타내는 세 가지 대표값 -- 평균, 중앙값, 최빈값 -- 의 특성과 함정을 직접 실험하며 배웁니다.

이야기: 반 평균이 75점인데, 평균이 "나"를 대변하는가?

중간고사 수학 시험 결과가 나왔습니다. 선생님이 말합니다: "반 평균은 75점입니다."

민수는 90점을 받았습니다. "나는 평균보다 훨씬 잘했네."
지영이는 40점을 받았습니다. "평균이 75점인데 나는 40점이라니..."
하지만 잠깐 -- 이 반의 점수 분포를 자세히 보면:

90점대: 5명
80점대: 3명
70점대: 2명
60점대: 5명
50점대: 8명
40점대: 7명

30명 중 20명이 70점 미만입니다. 그런데 평균은 75점? 상위 8명의 높은 점수가 평균을 위로 끌어올린 것입니다.

이 이야기의 교훈: "평균"은 데이터를 한 숫자로 요약하는 편리한 도구이지만, 모든 사람의 상황을 공정하게 대변하지 않을 수 있습니다. 그래서 평균 하나만으로 판단하면 위험하고, 중앙값, 최빈값 같은 다른 대표값과 함께 봐야 합니다. 이것이 이 장의 핵심 메시지입니다.

세 가지 대표값

평균(Mean) -- "골고루 나누면 각자 얼마?"

쉽게 말하면: 모든 값을 더해서 개수로 나눈 것입니다. 5명이 피자를 먹는데, 각자 1조각, 2조각, 3조각, 4조각, 5조각을 먹었다면, 전부 합치면 15조각이고, 5명으로 나누면 한 사람당 3조각이 "평균"입니다.

단계별로 계산해 봅시다:
데이터: 60, 70, 80, 80, 100 (시험 점수 5명)
1단계: 모두 더한다 → 60 + 70 + 80 + 80 + 100 = 390
2단계: 개수로 나눈다 → 390 / 5 = 78
평균 점수는 78점입니다. 모든 데이터가 계산에 영향을 줍니다.

중앙값(Median) -- "줄 서서 가운데 사람"

쉽게 말하면: 데이터를 작은 것부터 큰 것 순서로 줄 세운 뒤, 정가운데 서 있는 값입니다.

5명이 키 순서로 한 줄로 섭니다: 155cm, 160cm, 165cm, 170cm, 190cm.
가운데(3번째) 사람의 키가 165cm이므로, 중앙값은 165cm입니다.

만약 6명이라면? 가운데 두 사람의 평균을 구합니다.
155, 160, 165, 170, 175, 190 → 중앙값 = (165+170)/2 = 167.5cm

핵심: 맨 끝에 서 있는 190cm 사람이 250cm(농구 선수)로 바뀌어도 가운데 사람은 변하지 않습니다. 이것이 "극단값에 강건하다"는 의미입니다.

최빈값(Mode) -- "가장 인기 있는 메뉴"

쉽게 말하면: 가장 자주 나타나는 값입니다. 학교 앞 분식집에서 오늘 주문된 메뉴: 떡볶이, 떡볶이, 순대, 떡볶이, 김밥, 순대, 떡볶이.
떡볶이가 4번으로 가장 많으니 최빈값은 "떡볶이"입니다.

핵심: 최빈값은 숫자가 아닌 범주형 데이터에서도 사용할 수 있는 유일한 대표값입니다. "평균 메뉴"는 계산할 수 없지만, "가장 인기 있는 메뉴"는 알 수 있습니다.

평균 = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n
쉽게 말하면: 전부 더해서 개수로 나누기

중앙값 = 정렬 후 {(n+1)/2}번째 값 (n이 홀수) 또는 가운데 두 값의 평균 (n이 짝수)
쉽게 말하면: 줄 세우고 정가운데 값 찾기

최빈값 = 가장 빈도가 높은 값
쉽게 말하면: 가장 많이 나타난 값

핵심 차이: 평균은 모든 데이터에 민감합니다. 극단값 하나가 평균을 크게 움직일 수 있습니다. 중앙값은 위치만 보기 때문에 극단값에 강건(robust)합니다. 최빈값은 분포의 봉우리를 나타냅니다.

왜 평균이 "거짓말"을 하는가 -- 소득 불평등 예시

마을에 10명이 삽니다. 9명은 연봉 3,000만원, 1명은 연봉 30억원입니다.
평균 연봉: (3,000만 x 9 + 300,000만 x 1) / 10 = 3억 2,700만원
중앙값 연봉: 5번째와 6번째의 평균 = 3,000만원

평균 연봉은 3억이 넘지만, 10명 중 9명은 3,000만원입니다. "이 마을의 평균 연봉은 3억 2,700만원"이라는 말은 사실이지만, 대부분의 주민의 현실과는 완전히 동떨어져 있습니다. 이런 경우 중앙값이 "전형적인 사람"을 훨씬 잘 대변합니다.

언제 어떤 대표값을 사용해야 하는가?

상황	적절한 대표값	이유
시험 점수 (정규분포에 가까움)	평균	극단값이 적고 분포가 대칭적
연봉, 집값 (오른쪽 꼬리 분포)	중앙값	소수의 고소득자/고가 주택이 평균을 왜곡
좋아하는 음식, 브랜드 선호	최빈값	범주형 데이터에 평균/중앙값은 계산 불가
옷 사이즈 결정 (제조업)	최빈값	가장 많은 고객이 원하는 사이즈를 알아야 함
서버 응답 시간	중앙값 또는 백분위수	소수의 매우 느린 응답이 평균을 왜곡
올림픽 체조 점수	절사평균	최고점/최저점을 제거하여 극단값 영향을 줄임
일별 매출 합계 추정	평균	평균 x 일수 = 전체 합계 추정에 활용

실습 1: 소득 분포 만들기

아래 히스토그램의 각 막대를 클릭하여 해당 소득 구간에 사람을 추가하세요. 우클릭(또는 Shift+클릭)으로 제거합니다. "재벌 추가" 버튼을 눌러 평균이 어떻게 변하는지 관찰하세요.

실습 목표: 소수의 고소득자가 평균을 얼마나 끌어올리는지 직접 확인하세요. 중앙값과 비교하며 "어떤 대표값이 정직한지" 생각해 보세요.

인원 수

평균 (만원)

중앙값 (만원)

최빈값 (만원)

평균의 함정: "재벌 추가" 버튼을 몇 번 누르면 평균은 급격히 올라가지만, 중앙값은 거의 변하지 않습니다. 이것이 바로 "평균 연봉"이 대부분의 사람을 대변하지 못하는 이유입니다. 이런 현상을 심슨의 역설(Simpson's Paradox)이라 부르기도 하며, 다음 파트에서 더 깊이 다룹니다.

실습 2: 대표값의 강건성 테스트

데이터 분포를 선택하고 이상치(outlier)를 추가하면서, 평균/중앙값/최빈값이 얼마나 "흔들리는지" 관찰하세요.

실습 목표: 이상치 슬라이더를 움직이면서 세 대표값의 반응 차이를 비교하세요. 어떤 대표값이 "강건(robust)"한지 느껴보세요.

분포 유형: 데이터 수:

이상치 추가: 0개

이상치 없음 극단적 이상치 10개

평균

중앙값

최빈값

평균 변화율

이상치 추가 후

실습 3: 어떤 대표값이 정직한가?

5개의 실제 시나리오에서 가장 적절한 대표값을 선택하세요. 각 상황의 데이터 분포를 보고 판단합니다.

실습 목표: 상황에 따라 적절한 대표값이 다릅니다. 5문제 모두 맞혀 보세요.

실습 4: 절사평균 탐색기

절사평균(trimmed mean)은 데이터의 양 끝을 일정 비율 잘라낸 후 계산하는 평균입니다. 올림픽 체조 점수 채점에서도 최고점/최저점을 제외하고 평균하는 방식이 이와 같습니다.

실습 목표: 절사 비율 슬라이더를 조절하면서 절사평균이 일반 평균과 중앙값 사이 어디에 위치하는지 관찰하세요.

절사 비율: 0%

0% (일반 평균) 25% (양쪽 25% 제거)

일반 평균

절사평균

중앙값

제거된 데이터

양쪽 합계

왜 절사평균을 사용하는가? 일반 평균은 극단값에 너무 민감하고, 중앙값은 데이터의 전체적인 크기 정보를 무시합니다. 절사평균은 이 둘 사이의 타협점입니다. 절사 비율이 0%이면 일반 평균과 같고, 50%이면 중앙값과 같아집니다.

경영에서 어떤 대표값을 쓸까?

매출 분석: 일별 매출의 평균을 사용합니다. 전체 매출 합계를 일수로 나눈 것이므로, 총 매출 추정에 유용합니다.

고객 만족도: 중앙값을 사용합니다. 1점(매우 불만)을 주는 소수의 극단적 고객이 평균을 왜곡하기 때문입니다.

제품 카테고리 분석: 최빈값을 사용합니다. "가장 많이 팔리는 카테고리가 무엇인가?"는 최빈값의 질문입니다.

부동산 시세: 중앙값을 사용합니다. 한남동 100억 펜트하우스 한 채가 동네 평균을 2배로 끌어올릴 수 있습니다.

응답 시간(서버, 콜센터): 중앙값 또는 백분위수(P95, P99)를 사용합니다. 평균 응답 시간이 2초여도, 상위 5% 고객이 30초를 기다릴 수 있습니다.

이 장의 핵심

평균은 모든 데이터에 민감하며, 극단값에 의해 크게 왜곡될 수 있다.
중앙값은 극단값에 강건하며, 비대칭 분포에서 "전형적인 값"을 더 잘 나타낸다.
최빈값은 범주형 데이터와 다봉분포에서 유용하다.
절사평균은 평균과 중앙값의 타협점으로, 실무에서 유용하게 활용된다.
상황에 맞는 대표값을 선택하는 것이 정직한 데이터 분석의 시작이다.

다음 장 예고: 중심을 알았으니, 이제 "퍼짐"을 배울 차례입니다. 같은 평균이어도 전혀 다른 세상일 수 있습니다 -- 분산과 표준편차의 세계로 들어갑니다.

← 목차로 돌아가기