PART 2 · 14장

캡스톤 II: 설문조사 분석 종합실습

CSV에서 완전한 분석 보고서까지

데이터 안내: 이 장의 시뮬레이션에 사용된 데이터 중 일부는 교육 목적으로 생성된 가상 데이터입니다. 실제 한국 경제 데이터는 한국은행 ECOS(ecos.bok.or.kr), 통계청 KOSIS(kosis.kr), World Bank에서 확인할 수 있습니다.

실제 분석의 전 과정을 체험한다

이 캡스톤은 8~13장에서 배운 모든 것을 하나의 분석 파이프라인으로 통합한다. 가상의 한국 기업 직원 만족도 설문조사 데이터(500명, 15개 변수)를 이용하여, 데이터 탐색부터 가설검정, 효과크기 보고, 최종 분석 보고서 생성까지 완전한 분석 워크플로를 경험한다.

분석 파이프라인 -- 설문조사 분석의 5단계 워크플로:

설문조사 분석은 항상 다음 흐름을 따른다. 각 단계를 건너뛰면 결과의 신뢰성이 떨어진다.

(1) 설계 (Design): 어떤 질문을 할 것인가? 누구에게 물을 것인가? 몇 명에게 물을 것인가?
(2) 수집 (Collect): 온라인/오프라인 설문 배포, 응답 수거
(3) 정제 (Clean): 결측치 처리, 이상치 확인, 변수 코딩
(4) 분석 (Analyze): 기술통계 --> 시각화 --> 가설검정 --> 효과크기
(5) 보고 (Report): 연구 질문, 방법론, 주요 발견, 한계점을 구조화하여 전달

쉽게 말하면: 요리에 비유하면, (1)레시피 선정, (2)재료 구매, (3)손질과 세척, (4)조리, (5)플레이팅과 서빙이다. 아무리 좋은 재료도 손질 없이 바로 조리하면 맛이 없듯, 데이터도 정제 없이 분석하면 결론이 왜곡된다.

"좋은 설문 vs 나쁜 설문" -- 설문 설계의 함정:
아무리 고급 분석 기법을 쓰더라도, 설문 자체가 나쁘면 분석 결과도 쓸모없다. 대표적인 나쁜 설문의 유형:

1. 유도 질문 (Leading Question):
  나쁜 예: "우리 회사의 훌륭한 복지 제도에 만족하십니까?"
  좋은 예: "회사의 복지 제도에 대한 만족도를 표시해주세요."

2. 이중 질문 (Double-barreled Question):
  나쁜 예: "상사의 리더십과 의사소통 능력에 만족하십니까?"
  (리더십은 만족하지만 의사소통은 불만족이면 어떻게 답하는가?)
  좋은 예: 두 가지를 별도 문항으로 분리한다.

3. 모호한 표현:
  나쁜 예: "자주 야근을 하십니까?" ("자주"가 주 1회인가 주 5회인가?)
  좋은 예: "지난 한 달간 야근 횟수는?" (구체적 수치 요청)

4. 사회적 바람직성 편향:
  "업무 중 개인적인 인터넷 사용을 하십니까?" -- 솔직하게 답하기 어려운 질문은 익명성을 보장하더라도 과소보고될 수 있다.

아래 "데이터 생성" 버튼을 누르면 설문조사 데이터가 자동으로 생성된다. 현실감을 높이기 위해 결측값, 부서별 차이, 성별 차이, 근속연수 효과가 반영되어 있다.

실습 1: 데이터 개요

생성된 데이터셋의 변수 구성, 결측치 현황, 데이터 유형을 한눈에 파악한다. 분석의 첫 단계는 항상 "데이터를 이해하는 것"이다.

결과를 해석할 때의 실용적 팁:
- 평균만 보지 말고 분포를 봐라: 만족도 평균 3.5점이라 해도, 모두가 3~4점인 경우와 1점과 5점으로 양극화된 경우는 전혀 다른 상황이다.
- 통계적 유의성과 실질적 유의성을 구분하라: n=500이면 미세한 차이도 유의하게 나올 수 있다. 효과크기를 반드시 확인하라.
- 상관관계와 인과관계를 혼동하지 마라: "근속연수가 높을수록 만족도가 높다"는 결과가 나왔다고, "오래 다니면 만족도가 올라간다"고 결론 내릴 수 없다. 불만족한 사람이 먼저 퇴사했을 수도 있다 (생존 편향).
- 응답률을 체크하라: 500명에게 보내서 100명만 응답했다면, 응답하지 않은 400명은 어떤 특성을 가졌을까? 불만족한 직원이 설문에 응답하지 않았을 수 있다.

변수 요약 테이블: 각 변수의 유형, 유효 관측치 수, 결측 수, 고유값 수가 표시된다. 수치형 변수는 평균과 표준편차가, 범주형 변수는 최빈값이 함께 나타난다.

실습 2: 기술통계 대시보드

변수를 선택하면 분포 차트와 요약 통계가 자동으로 표시된다. 두 변수를 동시에 선택하면 교차표 또는 그룹별 비교 차트가 나타난다.

단일 변수 탐색과 이변량 탐색을 모두 시도해 보라. 수치형 변수를 선택하면 히스토그램과 요약 통계가, 범주형 변수를 선택하면 막대 그래프와 빈도표가 표시된다. 두 번째 변수를 추가로 선택하면 교차분석이 수행된다.

실습 3: 가설검정 워크벤치

검정 유형을 선택하고 변수를 지정하면, 가설 설정부터 검정 통계량, p-값, 효과크기, 신뢰구간, 해석까지 단계별로 출력된다.

다양한 검정을 시도해 보라. 같은 데이터에 대해 서로 다른 검정을 적용하면 어떤 결과가 나오는지, 변수 조합을 바꾸면 효과크기가 어떻게 달라지는지 관찰하라.

실습 4: 하위집단 비교

"부서별로 만족도가 다른가?", "성별에 따라 급여 차이가 있는가?", "근속 기간에 따라 이직의향이 달라지는가?" -- 이런 질문에 답하기 위해 하위집단을 비교한다. 적절한 검정(t-검정 또는 ANOVA)이 자동으로 선택되며, 효과크기가 포레스트 플롯으로 시각화된다.

비교하고 싶은 결과변수와 그룹변수를 선택하라. 그룹이 2개이면 t-검정이, 3개 이상이면 ANOVA가 자동으로 수행된다.

실습 5: 분석 보고서 생성기

지금까지의 분석 결과를 종합하여 구조화된 보고서를 자동으로 생성한다. 연구 질문, 사용한 분석 방법, 주요 발견, 한계점이 포함된다.

"보고서 생성" 버튼을 누르면 현재까지 수행한 분석(기술통계, 가설검정, 하위집단 비교)이 텍스트 보고서 형태로 정리된다. 다운로드도 가능하다.

설문조사 데이터의 한계

설문조사는 사회과학 연구에서 가장 널리 쓰이는 자료 수집 방법이지만, 태생적인 한계를 가지고 있다. 이 한계를 인식하고 결론을 제한적으로 해석하는 것이 정직한 연구의 자세이다.

설문조사 데이터가 알려줄 수 없는 것:

1. 인과관계: 설문조사는 "한 시점의 스냅샷"이다. "스트레스가 높을수록 만족도가 낮다"는 관계를 발견해도, "스트레스가 만족도를 낮추는가?" 아니면 "만족도가 낮아서 스트레스를 느끼는가?"를 구분할 수 없다. 인과관계를 확인하려면 실험 설계(무작위 배정)나 종단 연구(시간에 따른 추적)가 필요하다.

2. 진짜 행동: 설문은 "보고된 행동"이지 "실제 행동"이 아니다. "하루에 몇 시간 운동하십니까?"라는 질문에 대한 답은 실제 운동 시간보다 과장되는 경향이 있다.

3. 응답하지 않은 사람의 의견: 설문에 응답하지 않은 사람들은 응답자와 다른 특성을 가질 수 있다. 극단적으로 불만족한 직원은 이미 퇴사했거나, 설문에 응답할 의욕조차 없을 수 있다.

4. 측정의 정밀도: "1~5점 척도"에서 4점이 정확히 무엇을 의미하는지는 사람마다 다르다. 어떤 사람의 4점은 다른 사람의 3점일 수 있다.

그럼에도 설문조사가 가치 있는 이유:
한계가 있다고 해서 설문조사가 무용하다는 뜻은 아니다. 설문은 (1) 대규모 집단의 경향성을 빠르게 파악하고, (2) 잠재적 문제를 발견하며, (3) 후속 심층 조사의 방향을 설정하는 데 매우 유용하다. 핵심은 한계를 인식한 상태에서 해석하는 것이다. "이 설문 결과에 따르면 X와 Y 사이에 관련성이 있다"라고 쓰는 것과, "X가 Y의 원인이다"라고 쓰는 것은 완전히 다른 주장이다.

캡스톤 II 정리

데이터 분석은 설계 -> 수집 -> 정제 -> 분석 -> 보고의 단계를 따른다. 어떤 단계도 건너뛸 수 없다.
좋은 설문 설계(유도 질문, 이중 질문 회피)가 좋은 분석의 전제 조건이다.
변수의 유형에 따라 적절한 시각화와 검정 방법이 달라진다.
가설검정 결과를 보고할 때는 검정 통계량, p-값, 효과크기, 신뢰구간을 모두 포함해야 한다.
하위집단 비교 시 다중비교 문제에 주의하고, 실질적 의미를 항상 고려해야 한다.
설문조사 데이터는 인과관계를 증명할 수 없으며, 응답 편향과 측정 한계를 항상 고려해야 한다.
최종 보고서에는 연구 질문, 방법, 결과, 한계점이 명확히 기술되어야 한다.

다음 파트 예고: Part 3에서는 회귀분석과 예측의 세계로 넘어간다. 단순선형회귀부터 시작하여, 변수 간의 관계를 수식으로 표현하고 미래를 예측하는 방법을 배운다.

← 목차로 돌아가기

캡스톤 II: 설문조사 분석 종합실습

실제 분석의 전 과정을 체험한다

실습 1: 데이터 개요

변수 요약

데이터 미리보기 (처음 10행)

실습 2: 기술통계 대시보드

실습 3: 가설검정 워크벤치

실습 4: 하위집단 비교

그룹별 평균 비교

효과크기 포레스트 플롯

실습 5: 분석 보고서 생성기

설문조사 데이터의 한계