PART 1 · 7장

캡스톤 I: 한국 경제 데이터 탐색기

기술통계 종합 실습

데이터 안내: 이 장의 시뮬레이션에 사용된 데이터 중 일부는 교육 목적으로 생성된 가상 데이터입니다. 실제 한국 경제 데이터는 한국은행 ECOS(ecos.bok.or.kr), 통계청 KOSIS(kosis.kr), World Bank에서 확인할 수 있습니다.

기술통계의 모든 것을 한 곳에서

3장(요약통계), 4장(시각화), 5장(분포), 6장(상관)에서 배운 모든 기법을 한국 경제 데이터에 직접 적용하는 종합 실습입니다.

1995년부터 2024년까지 30년간의 한국 경제/사회 지표 10개를 담은 데이터셋을 탐색합니다. IMF 외환위기(1997), 글로벌 금융위기(2008), COVID-19(2020) -- 데이터에 역사가 새겨져 있습니다. 숫자만으로 그 이야기를 꺼내보세요.

EDA(탐색적 데이터 분석)란 무엇인가: 데이터를 처음 만났을 때 하는 탐색입니다. 의사가 환자를 처음 진찰하는 것과 같습니다. 의사가 바로 수술하지 않고 먼저 체온을 재고, 맥박을 확인하고, 엑스레이를 찍듯이, 데이터 분석가도 바로 모델을 만들지 않고 먼저 데이터의 전체적인 모습을 파악합니다.

EDA의 4단계 워크플로우:
(1) Look (보기) -- 데이터의 크기, 변수 종류, 결측치 여부를 확인합니다. "이 데이터가 뭔지 대략 파악"하는 단계입니다.
(2) Summarize (요약하기) -- 각 변수의 평균, 중앙값, 표준편차 등 기술통계를 계산합니다. "숫자로 요약"하는 단계입니다.
(3) Visualize (시각화하기) -- 히스토그램, 시계열, 산점도를 그려서 패턴을 눈으로 확인합니다. "그림으로 보기" 단계입니다.
(4) Find Patterns (패턴 발견하기) -- 이상치, 추세, 변수 간 관계를 탐색합니다. "이야기 꺼내기" 단계입니다.

쉽게 말하면, EDA는 "데이터에게 질문을 던지고 답을 듣는 대화"입니다.

데이터 출처: 아래 데이터는 한국은행, 통계청, 국제기구 발표 자료를 기반으로 교육 목적에 맞게 구성한 합성 데이터입니다. 실제 수치와 유사하지만 정확한 공식 통계는 아닙니다.

데이터셋 개요

변수	설명	단위	기간
GDP 성장률	실질 국내총생산 증가율	%	1995-2024
실업률	경제활동인구 대비 실업자 비율	%	1995-2024
소비자물가상승률	CPI 전년 대비 상승률	%	1995-2024
가계부채비율	GDP 대비 가계부채	%	1995-2024
출생률	인구 1,000명당 출생아 수	천분율	1995-2024
주택가격지수	전국 주택가격 지수 (2020=100)	지수	1995-2024
지니계수	소득 불평등 지표 (0=완전평등)	0-1	1995-2024
수출증가율	상품 수출 전년 대비 증가율	%	1995-2024
원/달러 환율	연평균 환율	원	1995-2024
KOSPI 수익률	종합주가지수 연간 수익률	%	1995-2024

관측 기간

30년

변수 수

10개

관측치 수

300개

30년 x 10변수

위기 이벤트

3회

1997, 2008, 2020

Interactive 1: 변수 탐색기

변수를 선택하면 히스토그램, 시계열 그래프, 요약통계를 한눈에 볼 수 있습니다. EDA 워크플로우의 첫 단계(Look + Summarize + Visualize)를 한 번에 수행합니다.

해석 가이드 -- 무엇을 봐야 하는가:
히스토그램에서: 분포가 대칭인가, 한쪽으로 치우쳤는가? 봉우리가 하나인가 여러 개인가? 극단적으로 떨어진 값이 있는가?
시계열에서: 전체적인 추세가 상승인가 하락인가? 갑자기 급변하는 시점이 있는가? 그 시점에 어떤 사건이 있었는가?
요약통계에서: 평균과 중앙값이 비슷한가? (비슷하면 대칭, 다르면 치우침) 표준편차가 평균에 비해 큰가 작은가?

변수 선택:

히스토그램

시계열 추이

평균

중앙값

표준편차

최소

최대

왜도

실습 과제:

GDP 성장률의 시계열을 보세요. 급격히 떨어진 해가 보이나요? 그 해에 무슨 일이 있었나요?
출생률의 추이를 확인하세요. 어떤 패턴이 보이나요?
가계부채비율의 히스토그램은 어떤 모양인가요? 정규분포에 가까운가요?
KOSPI 수익률의 왜도를 확인하세요. 양의 왜도인가요, 음의 왜도인가요?

Interactive 2: 두 변수의 관계

X축과 Y축 변수를 선택하면 산점도, 회귀선, 상관계수가 자동으로 표시됩니다. 각 점 위에 마우스를 올리면 해당 연도를 확인할 수 있습니다. EDA 워크플로우의 네 번째 단계(Find Patterns)에 해당합니다.

산점도 해석 가이드:
점들이 오른쪽 위로 올라가면: 양의 상관. X가 커질 때 Y도 커지는 경향.
점들이 오른쪽 아래로 내려가면: 음의 상관. X가 커질 때 Y가 작아지는 경향.
점들이 뿌려져 있으면: 상관이 약함. X와 Y가 독립적으로 움직임.
회귀선에서 멀리 떨어진 점: 이상치일 가능성. 그 점이 어떤 연도인지 확인하면 경제적 사건과 연결될 수 있습니다.
R-squared: "X로 Y의 변동을 몇 % 설명할 수 있는가"를 나타냅니다. R-squared = 0.49이면 49% 설명 가능.

X축: Y축:

Pearson r

R-squared

설명된 분산 비율

회귀식

실습 과제:

GDP 성장률(X) vs 실업률(Y): 상관계수의 부호는? 오쿤의 법칙과 일치하나요?
가계부채비율(X) vs 주택가격지수(Y): 어떤 관계가 보이나요?
산점도에서 유독 떨어져 있는 점(이상치)은 어떤 연도인가요?
출생률(X) vs 지니계수(Y): 관계가 있나요? 있다면 인과관계일까요?

Interactive 3: 상관관계 대시보드

여러 변수를 동시에 선택하여 상관행렬 히트맵을 생성합니다. 어떤 변수끼리 강하게 연결되어 있는지 한눈에 파악하세요. 여러 변수의 관계를 한 번에 조망하는 "조감도" 역할을 합니다.

상관행렬 히트맵 읽는 팁: 히트맵은 "변수들의 관계 지도"입니다. 색이 진한 칸은 관계가 강한 변수 쌍이고, 연한 칸은 관계가 약한 쌍입니다. 같은 색(예: 진한 파란색) 그룹으로 묶이는 변수들이 보이면, 그 변수들이 함께 움직이는 "군집"일 수 있습니다. 다만 상관이 높다고 인과관계가 있는 것은 아님을 항상 기억하세요 (6장의 교훈!).

3~6개 변수를 선택하세요

상관행렬 읽는 법: 파란색은 양의 상관(함께 증가), 빨간색은 음의 상관(하나 증가 시 다른 하나 감소). 원의 크기가 클수록 상관의 절대값이 큽니다. 대각선은 항상 r=1 (자기 자신과의 상관)입니다.

Interactive 4: EDA 보고서 생성기

버튼 하나로 전체 데이터에 대한 탐색적 데이터 분석(EDA) 보고서를 자동 생성합니다. 실제 데이터 분석가가 작성하는 보고서의 형식을 경험하세요.

보고서 해석 가이드: 자동 생성되는 보고서에는 여러 섹션이 있습니다. 각각을 이렇게 읽으세요:
-- 기술통계 요약: 각 변수의 "프로필"입니다. 평균과 중앙값의 차이가 크면 분포가 치우쳐 있다는 신호입니다.
-- 상관관계 Top 3: 가장 강하게 연결된 변수 쌍입니다. "왜 이 두 변수가 함께 움직일까?"를 생각해보세요.
-- 이상치 연도: 데이터가 평소와 크게 다른 해입니다. 그 해에 어떤 경제적/사회적 사건이 있었는지 연결해보세요.

실습 과제:

보고서를 생성하고, "가장 강한 상관관계 Top 3"를 확인하세요.
이상치 연도로 표시된 해에 실제로 어떤 경제적 사건이 있었는지 조사해보세요.
보고서의 "핵심 발견" 섹션을 읽고, 추가로 궁금한 점을 3가지 적어보세요.

데이터 분석가의 첫 단계: 실무에서 새 데이터셋을 받으면 가장 먼저 하는 것이 EDA입니다. 각 변수의 분포를 확인하고, 변수 간 관계를 파악하고, 이상치를 탐지합니다. 이 과정 없이 곧바로 모델을 만드는 것은 지도 없이 여행을 떠나는 것과 같습니다.

Interactive 5: 위기 감지기

여러 지표가 동시에 평균에서 크게 벗어난(+/- 2 표준편차) 해를 자동으로 감지합니다. 과거 경제 위기가 데이터에 어떤 흔적을 남겼는지 확인하세요.

위기 감지의 원리: 정상적인 경제 상황에서 각 지표는 평균 근처에서 움직입니다. 그런데 위기가 오면 여러 지표가 동시에 평균에서 크게 이탈합니다. 이 도구는 각 지표의 Z점수(5장에서 배운 것!)를 계산해서, 여러 지표가 동시에 +-2 표준편차 이상 벗어난 해를 "위기 의심 연도"로 표시합니다.

쉽게 말하면, 의사가 혈압, 혈당, 체온을 동시에 확인하듯이, 여러 경제 지표를 동시에 보면서 "몸(경제)이 정상인가"를 판단하는 것입니다.

기준 (표준편차 배수):

실습 과제:

기준을 2.0 SD로 설정하고 위기를 감지하세요. 1997, 2008, 2020이 잡히나요?
기준을 1.5 SD로 낮추면 추가로 어떤 해가 감지되나요?
각 위기 연도에서 가장 크게 이탈한 지표는 무엇인가요?
세 차례 위기의 성격이 어떻게 다른지 데이터로 설명해보세요.

주의: 통계적 이상치가 반드시 "위기"를 의미하지는 않습니다. 반대로, 점진적으로 진행된 구조적 문제(예: 저출산)는 급격한 이탈로 나타나지 않을 수 있습니다. 정량적 감지와 맥락적 해석을 함께 해야 합니다.

기술통계만으로도 이렇게 많은 이야기를 꺼낼 수 있습니다.

하나의 변수: 분포, 중심, 퍼짐, 이상치를 파악합니다.
두 변수: 상관관계와 산점도로 관계를 탐색합니다.
여러 변수: 상관행렬로 전체적인 구조를 봅니다.
시계열: 추세, 변동, 구조적 변화를 감지합니다.
위기 감지: 여러 지표의 동시 이탈로 체계적 위험을 포착합니다.

다음 Part에서는 표본에서 모집단을 추론하는 방법을 배웁니다. "이 30년 데이터가 더 넓은 맥락에서 무엇을 말해주는가?" -- 신뢰구간과 가설검정이 그 답을 줍니다.

← 목차로 돌아가기