캡스톤 I: 한국 경제 데이터 탐색기
기술통계 종합 실습
기술통계의 모든 것을 한 곳에서
3장(요약통계), 4장(시각화), 5장(분포), 6장(상관)에서 배운 모든 기법을 한국 경제 데이터에 직접 적용하는 종합 실습입니다.
1995년부터 2024년까지 30년간의 한국 경제/사회 지표 10개를 담은 데이터셋을 탐색합니다. IMF 외환위기(1997), 글로벌 금융위기(2008), COVID-19(2020) -- 데이터에 역사가 새겨져 있습니다. 숫자만으로 그 이야기를 꺼내보세요.
EDA의 4단계 워크플로우:
(1) Look (보기) -- 데이터의 크기, 변수 종류, 결측치 여부를 확인합니다. "이 데이터가 뭔지 대략 파악"하는 단계입니다.
(2) Summarize (요약하기) -- 각 변수의 평균, 중앙값, 표준편차 등 기술통계를 계산합니다. "숫자로 요약"하는 단계입니다.
(3) Visualize (시각화하기) -- 히스토그램, 시계열, 산점도를 그려서 패턴을 눈으로 확인합니다. "그림으로 보기" 단계입니다.
(4) Find Patterns (패턴 발견하기) -- 이상치, 추세, 변수 간 관계를 탐색합니다. "이야기 꺼내기" 단계입니다.
쉽게 말하면, EDA는 "데이터에게 질문을 던지고 답을 듣는 대화"입니다.
데이터셋 개요
| 변수 | 설명 | 단위 | 기간 |
|---|---|---|---|
| GDP 성장률 | 실질 국내총생산 증가율 | % | 1995-2024 |
| 실업률 | 경제활동인구 대비 실업자 비율 | % | 1995-2024 |
| 소비자물가상승률 | CPI 전년 대비 상승률 | % | 1995-2024 |
| 가계부채비율 | GDP 대비 가계부채 | % | 1995-2024 |
| 출생률 | 인구 1,000명당 출생아 수 | 천분율 | 1995-2024 |
| 주택가격지수 | 전국 주택가격 지수 (2020=100) | 지수 | 1995-2024 |
| 지니계수 | 소득 불평등 지표 (0=완전평등) | 0-1 | 1995-2024 |
| 수출증가율 | 상품 수출 전년 대비 증가율 | % | 1995-2024 |
| 원/달러 환율 | 연평균 환율 | 원 | 1995-2024 |
| KOSPI 수익률 | 종합주가지수 연간 수익률 | % | 1995-2024 |
Interactive 1: 변수 탐색기
변수를 선택하면 히스토그램, 시계열 그래프, 요약통계를 한눈에 볼 수 있습니다. EDA 워크플로우의 첫 단계(Look + Summarize + Visualize)를 한 번에 수행합니다.
히스토그램에서: 분포가 대칭인가, 한쪽으로 치우쳤는가? 봉우리가 하나인가 여러 개인가? 극단적으로 떨어진 값이 있는가?
시계열에서: 전체적인 추세가 상승인가 하락인가? 갑자기 급변하는 시점이 있는가? 그 시점에 어떤 사건이 있었는가?
요약통계에서: 평균과 중앙값이 비슷한가? (비슷하면 대칭, 다르면 치우침) 표준편차가 평균에 비해 큰가 작은가?
- GDP 성장률의 시계열을 보세요. 급격히 떨어진 해가 보이나요? 그 해에 무슨 일이 있었나요?
- 출생률의 추이를 확인하세요. 어떤 패턴이 보이나요?
- 가계부채비율의 히스토그램은 어떤 모양인가요? 정규분포에 가까운가요?
- KOSPI 수익률의 왜도를 확인하세요. 양의 왜도인가요, 음의 왜도인가요?
Interactive 2: 두 변수의 관계
X축과 Y축 변수를 선택하면 산점도, 회귀선, 상관계수가 자동으로 표시됩니다. 각 점 위에 마우스를 올리면 해당 연도를 확인할 수 있습니다. EDA 워크플로우의 네 번째 단계(Find Patterns)에 해당합니다.
점들이 오른쪽 위로 올라가면: 양의 상관. X가 커질 때 Y도 커지는 경향.
점들이 오른쪽 아래로 내려가면: 음의 상관. X가 커질 때 Y가 작아지는 경향.
점들이 뿌려져 있으면: 상관이 약함. X와 Y가 독립적으로 움직임.
회귀선에서 멀리 떨어진 점: 이상치일 가능성. 그 점이 어떤 연도인지 확인하면 경제적 사건과 연결될 수 있습니다.
R-squared: "X로 Y의 변동을 몇 % 설명할 수 있는가"를 나타냅니다. R-squared = 0.49이면 49% 설명 가능.
- GDP 성장률(X) vs 실업률(Y): 상관계수의 부호는? 오쿤의 법칙과 일치하나요?
- 가계부채비율(X) vs 주택가격지수(Y): 어떤 관계가 보이나요?
- 산점도에서 유독 떨어져 있는 점(이상치)은 어떤 연도인가요?
- 출생률(X) vs 지니계수(Y): 관계가 있나요? 있다면 인과관계일까요?
Interactive 3: 상관관계 대시보드
여러 변수를 동시에 선택하여 상관행렬 히트맵을 생성합니다. 어떤 변수끼리 강하게 연결되어 있는지 한눈에 파악하세요. 여러 변수의 관계를 한 번에 조망하는 "조감도" 역할을 합니다.
Interactive 4: EDA 보고서 생성기
버튼 하나로 전체 데이터에 대한 탐색적 데이터 분석(EDA) 보고서를 자동 생성합니다. 실제 데이터 분석가가 작성하는 보고서의 형식을 경험하세요.
-- 기술통계 요약: 각 변수의 "프로필"입니다. 평균과 중앙값의 차이가 크면 분포가 치우쳐 있다는 신호입니다.
-- 상관관계 Top 3: 가장 강하게 연결된 변수 쌍입니다. "왜 이 두 변수가 함께 움직일까?"를 생각해보세요.
-- 이상치 연도: 데이터가 평소와 크게 다른 해입니다. 그 해에 어떤 경제적/사회적 사건이 있었는지 연결해보세요.
- 보고서를 생성하고, "가장 강한 상관관계 Top 3"를 확인하세요.
- 이상치 연도로 표시된 해에 실제로 어떤 경제적 사건이 있었는지 조사해보세요.
- 보고서의 "핵심 발견" 섹션을 읽고, 추가로 궁금한 점을 3가지 적어보세요.
Interactive 5: 위기 감지기
여러 지표가 동시에 평균에서 크게 벗어난(+/- 2 표준편차) 해를 자동으로 감지합니다. 과거 경제 위기가 데이터에 어떤 흔적을 남겼는지 확인하세요.
쉽게 말하면, 의사가 혈압, 혈당, 체온을 동시에 확인하듯이, 여러 경제 지표를 동시에 보면서 "몸(경제)이 정상인가"를 판단하는 것입니다.
- 기준을 2.0 SD로 설정하고 위기를 감지하세요. 1997, 2008, 2020이 잡히나요?
- 기준을 1.5 SD로 낮추면 추가로 어떤 해가 감지되나요?
- 각 위기 연도에서 가장 크게 이탈한 지표는 무엇인가요?
- 세 차례 위기의 성격이 어떻게 다른지 데이터로 설명해보세요.
- 하나의 변수: 분포, 중심, 퍼짐, 이상치를 파악합니다.
- 두 변수: 상관관계와 산점도로 관계를 탐색합니다.
- 여러 변수: 상관행렬로 전체적인 구조를 봅니다.
- 시계열: 추세, 변동, 구조적 변화를 감지합니다.
- 위기 감지: 여러 지표의 동시 이탈로 체계적 위험을 포착합니다.
다음 Part에서는 표본에서 모집단을 추론하는 방법을 배웁니다. "이 30년 데이터가 더 넓은 맥락에서 무엇을 말해주는가?" -- 신뢰구간과 가설검정이 그 답을 줍니다.