PART 0 · 2장

데이터 사이언스 로드맵

이 교재의 전체 지도

35개 장, 7개 파트 -- 어디서부터 시작할까?

이 교재는 데이터 리터러시부터 딥러닝까지, 경영학도가 알아야 할 데이터 사이언스의 핵심을 35개 장에 걸쳐 다룹니다. 하지만 처음부터 끝까지 순서대로 읽을 필요는 없습니다.

이 장은 전체 교재의 지도입니다. 아래 커리큘럼 맵에서 각 장의 위치와 선수 관계를 확인하고, 내 연구 질문에 맞는 분석 경로를 찾아보세요.

통계를 배우면 무엇이 달라지는가?

"통계"라는 단어를 들으면 복잡한 공식과 계산기가 떠오르기 쉽습니다. 하지만 통계의 본질은 "불확실한 세상에서 더 나은 결정을 내리는 방법"입니다.

비유: 안경을 쓰는 것과 같습니다.

시력이 나쁜 사람이 안경을 쓰면 세상이 선명해지듯이, 통계를 배우면 숫자로 가득한 세상이 선명해집니다. 뉴스에서 "여론조사 오차범위 +-3.1%"가 무엇을 의미하는지, 광고에서 "고객 만족도 95%"가 정말 대단한 건지 아닌지, 투자 상품의 "연평균 수익률 8%"에 어떤 함정이 숨어 있는지를 알게 됩니다.

통계를 배우기 전과 후의 차이

전: "우리 회사 매출이 올해 10% 올랐다." → "좋은 거 아닌가?"
후: "업계 평균 성장률은 20%인데, 우리는 10%밖에 안 올랐다. 상대적으로 뒤처지고 있다." → 맥락을 읽는 눈.

전: "이 건강식품을 먹은 사람의 80%가 효과를 느꼈습니다." → "그럼 사야겠네?"
후: "대조군(가짜 약을 먹은 그룹)은 몇 %인지, 표본은 몇 명인지, 누가 조사했는지를 확인해야 한다." → 비판적 사고.

통계/데이터 역량이 필요한 직업들

데이터 분석가(Data Analyst): 기업의 데이터를 수집, 정리, 분석하여 의사결정을 지원합니다. 기술통계와 시각화가 핵심입니다. (Part 0-1)

마케팅 리서처: 소비자 설문조사를 설계하고, 결과를 통계적으로 분석하여 마케팅 전략을 제안합니다. 추론통계가 핵심입니다. (Part 2)

재무/투자 분석가: 주가, 환율, 금리 데이터를 분석하여 투자 전략을 수립합니다. 회귀분석과 시계열 분석이 핵심입니다. (Part 3)

경영 컨설턴트: 클라이언트 기업의 데이터를 분석하여 문제를 진단하고 해결책을 제시합니다. 전 파트가 고르게 필요합니다.

AI/머신러닝 엔지니어: 대규모 데이터로 예측 모델을 만들고 서비스에 적용합니다. Part 4-6이 핵심이며, Part 1-3이 기반입니다.

데이터 사이언스 워크플로

어떤 분석이든 기본 흐름은 동일합니다. 여섯 단계를 순환하며 반복합니다.

Question

연구 질문 설정

→

Data

데이터 수집/정제

→

EDA

탐색적 데이터 분석

→

Model

모델 구축

→

Evaluate

모델 평가

→

Communicate

결과 전달

각 단계를 클릭하면 해당 단계에서 어떤 작업을 하고, 교재의 어떤 파트가 관련되는지 확인할 수 있습니다. 실제 분석에서는 이 흐름을 여러 번 반복(iterate)합니다.

7개 파트 한눈에 보기

교재의 전체 구조를 파트별로 살펴봅니다. 각 파트를 클릭하면 포함된 장과 핵심 개념이 나타납니다.

각 파트가 답하는 질문

Part 0 (출발점): "데이터란 무엇이고, 이 교재를 어떻게 활용하면 좋은가?" 데이터의 기본 구조와 유형을 이해하고, 전체 학습 경로를 설계합니다. 이 파트는 나침반과 같습니다 -- 길을 떠나기 전에 지도를 펼치는 단계입니다.

Part 1 (기술통계): "내가 가진 데이터의 모습이 어떠한가?" 평균, 분산, 분포, 상관관계를 배웁니다. 데이터를 요약하고 시각화하여 첫인상을 파악하는 것입니다. 예: "우리 회사 직원의 평균 만족도는 3.8이고, 부서별로 큰 차이가 있다."

Part 2 (추론통계): "표본 데이터의 결과를 전체 모집단에도 적용할 수 있는가?" 100명에게 설문했더니 만족도가 3.8이었는데, 전체 1만 명의 직원도 비슷할까? 이 질문에 답하는 것이 추론통계입니다. 신뢰구간과 가설검정을 배웁니다.

Part 3 (회귀와 예측): "X가 변하면 Y는 얼마나 변하는가? 미래에 Y는 얼마일까?" 광고비를 1억 늘리면 매출이 얼마나 오르는지, 다음 분기 매출은 얼마인지를 예측합니다.

Part 4 (분류와 머신러닝): "이 고객은 이탈할 것인가, 아닌가?" 기계가 데이터에서 패턴을 학습하여 새로운 데이터를 분류하거나 예측합니다.

Part 5 (비지도학습): "정답 없이, 데이터 속에 숨겨진 구조를 찾을 수 있는가?" 고객을 자동으로 유형별 그룹으로 나누거나, 수십 개의 변수를 핵심 차원으로 압축합니다.

Part 6 (딥러닝과 AI): "기계가 이미지를 인식하고, 언어를 이해하는 원리는 무엇인가?" 신경망의 작동 원리를 직접 체험합니다.

출발점 (Part 0) 1-2장 | 데이터 사이언스의 세계로 첫 발을 내딛다

기술통계 (Part 1) 3-7장 | 데이터의 모양을 눈으로 확인하다

추론통계 (Part 2) 8-14장 | 표본에서 모집단의 진실에 다가가다

회귀와 예측 (Part 3) 15-21장 | 데이터로 미래를 예측하다

분류와 머신러닝 (Part 4) 22-28장 | 기계가 패턴을 학습하다

비지도학습과 차원축소 (Part 5) 29-32장 | 라벨 없이 구조를 발견하다

딥러닝과 AI (Part 6) 33-35장 | 인공지능의 원리를 체험하다

Part 0-1은 필수입니다. 기술통계를 제대로 이해해야 이후 모든 분석이 의미를 갖습니다. Part 2 이후는 관심사와 연구 질문에 따라 선택적으로 깊이 들어갈 수 있습니다.

인터랙티브 커리큘럼 맵

35개 장이 어떤 선수 관계로 연결되는지 한눈에 볼 수 있는 지도입니다. 노드를 클릭하면 해당 장의 상세 정보가 나타납니다.

전체 장

완료한 장

진행률

네 가지 분석 유형: 피자 가게로 이해하기

데이터 분석의 질문은 크게 네 가지 유형으로 나뉩니다. 피자 가게를 운영하는 상황으로 비유하면 쉽게 이해할 수 있습니다.

기술적(Descriptive) 분석 -- "현재 상태 파악"
"지난달 피자 판매량은 하루 평균 50판이었고, 주말이 평일의 1.8배였다."
쉽게 말하면: 이미 일어난 일을 숫자로 정리하는 것입니다. 마치 가게의 매출 장부를 정리하고, "이번 달은 어땠나?"를 확인하는 것과 같습니다.

추론적(Inferential) 분석 -- "표본에서 전체로"
"이번 주 100명 고객에게 물었더니 70%가 신메뉴를 좋아했다. 전체 고객도 그럴까?"
쉽게 말하면: 일부를 조사해서 전체를 추측하는 것입니다. 전 고객에게 물어볼 수 없으니, 표본 결과를 가지고 "전체도 아마 이럴 것이다"라고 통계적 근거를 가지고 판단합니다.

예측적(Predictive) 분석 -- "미래 예측"
"다음 달 금요일 저녁에 피자 주문이 몇 건이나 들어올까?"
쉽게 말하면: 과거 데이터의 패턴을 학습하여 미래를 예측하는 것입니다. 날씨, 요일, 시즌 데이터를 활용하여 "이 조건이면 대략 이만큼"을 예측합니다.

인과적(Causal) 분석 -- "원인과 결과"
"전단지를 돌리면 정말 매출이 올라가는 건가, 아니면 우연인가?"
쉽게 말하면: "A 때문에 B가 일어났다"를 증명하는 것입니다. 가장 어렵고 가장 가치 있는 분석입니다. 단순 상관관계("전단지를 돌린 날 매출이 높았다")와 인과관계("전단지가 매출을 올렸다")를 구분하는 것이 핵심입니다.

흔한 실수: 상관관계와 인과관계를 혼동하기
"아이스크림 판매량이 늘면 익사 사고도 늘어난다." 아이스크림이 사고를 일으킨 것일까요? 당연히 아닙니다. 여름이라는 공통 원인이 둘 다 증가시킨 것입니다. 이처럼 두 변수가 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 단정할 수 없습니다. 이 교훈을 잊지 않는 것이 데이터 분석의 가장 중요한 규칙 중 하나입니다.

연구 질문 분류기

분석의 출발점은 항상 질문입니다. 여러분의 연구 질문을 입력하면, 그것이 어떤 유형의 분석에 해당하는지 분류하고 관련 장을 추천해 드립니다.

실습: 아래 입력창에 연구 질문을 자유롭게 입력해 보세요. 한국어로 작성하면 됩니다.

기술적(Descriptive)

"현재 상태가 어떠한가?"

예: 고객의 평균 연령은? 매출 분포는?

추론적(Inferential)

"표본 결과가 모집단에도 적용되는가?"

예: 두 그룹의 평균 차이가 통계적으로 유의한가?

예측적(Predictive)

"미래에 무슨 일이 일어날까?"

예: 다음 분기 매출은 얼마일까?

인과적(Causal)

"X가 Y를 일으키는가?"

예: 교육 프로그램이 생산성을 높이는가?

퀴즈: 분석 방법과 질문 유형 매칭

실습: 5개의 분석 질문이 주어집니다. 각 질문이 기술적/추론적/예측적/인과적 중 어느 유형에 해당하는지 선택하세요.

나만의 학습 경로 설계

관심 분야를 선택하면 추천 학습 순서를 안내합니다.

실습: 아래에서 관심 있는 분석 목표를 선택하세요.

이 장의 핵심

데이터 사이언스 워크플로는 질문 -> 데이터 -> EDA -> 모델 -> 평가 -> 소통의 순환 구조이다.
교재는 7개 파트(기초 -> 기술통계 -> 추론통계 -> 회귀 -> ML -> 비지도 -> 딥러닝)로 구성된다.
연구 질문의 유형(기술/추론/예측/인과)에 따라 필요한 분석 방법이 달라진다.
커리큘럼 맵에서 선수 관계를 확인하고, 본인의 목표에 맞는 경로를 설계하자.

다음 장 예고: 전체 지도를 파악했으니, 이제 본격적인 통계의 첫 관문 -- "데이터의 중심"을 배웁니다. 평균이 왜 거짓말을 하는지 직접 확인해 보세요.

← 목차로 돌아가기