데이터란 무엇인가?
숫자 뒤에 숨은 이야기를 읽는 법
매출이 올랐는데 왜 적자인가?
2024년, 한 중소기업 대표가 회의에서 말합니다. "올해 매출이 15% 올랐습니다." 직원들이 환호합니다. 하지만 재무팀장이 조용히 덧붙입니다. "원자재비가 40% 올랐습니다. 영업이익률은 -3%입니다."
같은 회사, 같은 시기인데 숫자 하나에 따라 결론이 정반대가 됩니다. 데이터를 읽는 능력은 숫자 자체가 아니라, 어떤 숫자를 어떤 맥락에서 보는지에 달려 있습니다.
이 장에서는 데이터의 기본 구조를 이해하고, 직접 데이터를 분류하고 조작하면서 "데이터 리터러시"의 첫 걸음을 뗍니다.
잠깐, "데이터"가 정확히 뭔가요?
"데이터"라는 단어를 들으면 복잡한 숫자표나 컴퓨터 화면을 떠올리기 쉽습니다. 하지만 사실 여러분은 이미 매일 데이터를 만들고, 사용하고 있습니다.
여러분의 하루를 생각해 보세요.
- 스마트폰 스크린 타임 -- "오늘 4시간 23분 사용" → 이것이 데이터입니다.
- 배달 앱 주문 내역 -- 메뉴명, 가격, 주문 시각, 배달 시간 → 모두 데이터입니다.
- 시험 성적표 -- 과목별 점수, 석차, 평균 → 데이터입니다.
- 카드 결제 문자 -- "OO마트 15,800원 결제" → 소비 데이터입니다.
- 운동 앱 기록 -- 걸음 수, 심박수, 칼로리 → 건강 데이터입니다.
뉴스: "물가 상승률 3.2%" -- 통계청이 수천 개 품목의 가격 데이터를 수집하여 계산합니다.
비즈니스: 편의점은 날씨 데이터와 판매 데이터를 결합하여 도시락 발주량을 결정합니다.
스포츠: 야구에서 OPS(출루율+장타율)라는 데이터로 선수의 가치를 평가합니다.
의료: 혈압, 혈당, 콜레스테롤 수치라는 데이터로 건강 상태를 판단합니다.
데이터의 구조: 행과 열
데이터 분석에서 가장 먼저 만나는 것은 표(table)입니다. 통계학에서는 이것을 데이터셋(dataset)이라 부릅니다.
중학교 학급 명부를 떠올려 보세요. 명부에는 가로줄(행)마다 학생 한 명의 정보가 적혀 있고, 세로줄(열)에는 "이름", "출석번호", "키", "몸무게" 같은 항목이 있습니다.
행(row) = 관측치 하나. 학급 명부에서 "김철수" 한 줄 전체가 하나의 행입니다. 설문조사라면 응답자 한 명, 판매 데이터라면 거래 한 건이 됩니다.
열(column) = 변수 하나. "키"라는 세로줄 전체가 하나의 열입니다. 이름, 나이, 매출액 같은 측정 항목 하나하나가 열입니다.
쉽게 말하면: 행은 "누구(또는 무엇)에 대한 기록"이고, 열은 "무엇을 측정했는지"입니다.
아래 표를 직접 살펴보세요. 행과 열의 의미를 확인합니다.
| 직원번호 | 부서 | 직급 | 근속연수 | 연봉(만원) | 만족도(1-5) | 이직의향 |
|---|
변수의 유형: 범주형 vs 수치형
이제 데이터의 구조(행과 열)를 이해했습니다. 다음 질문은 이것입니다: 각 열(변수)에 담긴 값의 성격이 무엇인가? 이 성격에 따라 사용할 수 있는 분석 방법이 완전히 달라지기 때문입니다.
모든 변수는 크게 두 가지로 나뉩니다. 이 구분을 정확히 하는 것이 올바른 분석 방법을 선택하는 출발점입니다.
냉장고 속 음식을 정리한다고 생각해 보세요. 어떤 것은 "종류"로 구분합니다 -- 과일, 채소, 음료, 유제품 (이것이 범주형). 어떤 것은 "숫자"로 측정합니다 -- 무게 500g, 유통기한까지 3일 (이것이 수치형).
"음료 + 채소 = ?"는 말이 안 됩니다. 하지만 "500g + 300g = 800g"은 의미가 있습니다. 바로 이것이 범주형과 수치형의 핵심 차이입니다: 산술 연산(더하기, 빼기 등)이 의미가 있는가?
범주형 (Categorical)
분류나 그룹을 나타내는 변수. 숫자로 코딩해도 산술 연산이 무의미.
명목(Nominal): 순서 없음 — 성별, 부서, 혈액형
서열(Ordinal): 순서 있음 — 직급, 만족도 등급, 학력
수치형 (Numerical)
크기와 거리가 의미 있는 변수. 산술 연산 가능.
이산(Discrete): 셀 수 있음 — 자녀 수, 불량품 수
연속(Continuous): 측정값 — 키, 체중, 매출액, 온도
예를 들어 설문에서 "성별"을 남자=1, 여자=2로 코딩했다고 합시다. 이 숫자에 평균을 구하면 1.5가 나옵니다. "평균 성별이 1.5"라니, 전혀 의미가 없습니다. 이처럼 범주형 변수에 수치형 분석을 적용하면 엉터리 결론이 나옵니다. 반대로, 연봉 데이터를 "고/중/저"로만 분류하면 정밀한 분석 기회를 잃게 됩니다. 올바른 유형 분류 = 올바른 분석 = 올바른 결론. 이것이 출발점입니다.
왜 다음으로 "측정 척도"를 배우는가?
범주형과 수치형의 구분은 큰 그림입니다. 하지만 실제 분석에서는 더 세밀한 구분이 필요합니다. 같은 "숫자"라도 그 숫자가 담고 있는 정보의 수준이 다르기 때문입니다.
측정 척도: 같은 숫자, 다른 의미
Stevens(1946)는 측정 척도를 네 단계로 구분했습니다. 각 척도에서 허용되는 연산이 다릅니다.
| 척도 | 특성 | 허용 연산 | 예시 |
|---|---|---|---|
| 명목 | 분류만 가능 | = , != | 성별, 부서, 우편번호 |
| 서열 | 순서 있음 | = , != , < , > | 직급, 학력, 만족도 등급 |
| 등간 | 간격 동일 | + , - (차이 의미) | 온도(섭씨), 연도, IQ |
| 비율 | 절대 영점 | x , / (비율 의미) | 키, 무게, 매출액, 나이 |
명목 척도: 스마트폰 브랜드(삼성, 애플, LG), 좋아하는 색깔, 거주 지역. 이 값들에 "순서"란 없습니다. "삼성 > 애플"이라고 말할 수 없습니다.
서열 척도: 학교 성적 등급(수/우/미/양/가), 영화 별점(1~5개), 반장 선거 순위(1등, 2등, 3등). 순서는 있지만, 수와 우의 "차이"와 우와 미의 "차이"가 같다고 보장할 수 없습니다.
등간 척도: 온도(섭씨). 10도에서 20도로 올라간 차이와 20도에서 30도로 올라간 차이는 같은 10도입니다. 하지만 "20도는 10도의 두 배로 덥다"고는 말할 수 없습니다 -- 0도가 "온도가 전혀 없는 상태"가 아니기 때문입니다.
비율 척도: 키(cm), 몸무게(kg), 용돈(원). 0원은 진짜로 돈이 없는 상태이고, 2만원은 1만원의 "2배"라고 말할 수 있습니다. 가장 많은 연산이 가능한 척도입니다.
데이터를 눈으로 보기: 변수 유형별 시각화
지금까지 데이터의 구조(행과 열), 변수의 유형(범주형/수치형), 측정 척도(명목~비율)를 배웠습니다. 이 지식이 실제로 쓰이는 첫 번째 장면이 바로 시각화입니다. 변수 유형에 따라 적절한 그래프를 선택해야 데이터의 패턴이 눈에 들어옵니다.
변수의 유형에 따라 적절한 그래프가 다릅니다. 아래에서 변수를 선택하면 자동으로 적합한 차트가 그려집니다.
두 변수를 동시에 보기
지금까지는 변수 하나씩을 따로 살펴보았습니다. 하지만 현실의 질문은 대부분 "A와 B 사이에 관계가 있는가?"입니다. 예를 들어, "근속연수가 길면 연봉이 높은가?", "만족도가 낮으면 이직을 더 많이 하는가?" 이런 질문에 답하려면 두 변수를 동시에 봐야 합니다.
하나의 변수만 보면 놓치는 이야기가 있습니다. 두 변수를 동시에 놓고 보면 관계(relationship)가 드러납니다.
데이터 품질: 쓰레기가 들어가면 쓰레기가 나온다
지금까지 데이터의 구조, 변수 유형, 시각화를 배웠습니다. 하지만 현실에서는 한 가지 문제가 더 있습니다 -- 데이터 자체가 깨끗하지 않을 수 있다는 것입니다. 아무리 완벽한 분석 기법을 사용해도, 입력된 데이터가 엉망이면 결과도 엉망이 됩니다.
현실의 데이터에는 결측값, 이상치, 입력 오류가 항상 존재합니다. "Garbage In, Garbage Out" -- 아무리 정교한 분석 기법도 나쁜 데이터 앞에서는 무력합니다.
이상치(Outlier): 나머지 데이터와 극단적으로 다른 값. 입력 오류일 수도, 진짜 특이한 사례일 수도.
입력 오류: "연봉 5000만원"을 "50000만원"으로 잘못 입력한 경우.
아래 데이터에 의도적으로 문제를 심었습니다. 몇 개를 찾을 수 있나요?
| 직원 | 부서 | 근속연수 | 연봉(만원) | 만족도 | 이직의향 |
|---|
종합 실습: 기술통계 요약 생성기
현재 생성된 데이터의 기술통계를 자동으로 요약합니다. 데이터를 다시 생성(첫 번째 섹션)하면 여기도 자동으로 갱신됩니다.
- 데이터는 행(관측치)과 열(변수)로 이루어진 표이다.
- 변수는 범주형(명목/서열)과 수치형(이산/연속)으로 나뉜다.
- 측정 척도(명목-서열-등간-비율)에 따라 허용되는 분석이 달라진다.
- 변수 유형에 맞는 시각화를 선택해야 패턴이 보인다.
- 현실 데이터에는 결측값, 이상치, 오류가 항상 존재하며, 분석 전에 반드시 확인해야 한다.
다음 장 예고: 데이터의 구조를 이해했으니, 다음은 이 교과서 전체의 로드맵을 살펴봅니다. 기초 통계에서 머신러닝, 딥러닝까지 어떤 여정이 기다리고 있는지 한눈에 확인합니다.