다중회귀분석
변수를 추가하면 무엇이 달라지나?
아파트 가격은 면적만으로 결정되지 않는다
서울에서 아파트를 구할 때, 면적만 보고 가격을 예측한다면 어떨까요? 같은 85m2라도 강남과 노원은 가격이 두 배 이상 차이 납니다. 층수, 역세권 여부, 학군, 건축연도 -- 여러 요인이 동시에 가격에 영향을 미칩니다.
단순회귀(Chapter 15)에서는 X 하나로 Y를 예측했습니다. 이제 여러 개의 X를 동시에 모형에 넣어봅시다. 이것이 다중회귀분석(Multiple Regression)입니다.
핵심 질문은 이렇습니다: "다른 조건이 모두 같을 때, 이 변수 하나가 바뀌면 결과가 얼마나 달라지는가?"
단순회귀에서 다중회귀로
단순회귀가 2차원 산점도 위의 직선이라면, 다중회귀는 다차원 공간의 평면(또는 초평면)입니다. 변수가 2개면 3차원 공간에서 평면을, 3개 이상이면 시각화할 수 없는 고차원 초평면을 적합합니다.
쉽게 말하면 -- 실험 비유: "다른 변수를 고정했을 때"란, 마치 과학 실험에서 하나의 조건만 바꾸고 나머지는 통제하는 것과 같습니다. 식물 실험에서 물, 햇빛, 비료를 동시에 바꾸면 무엇이 효과를 냈는지 알 수 없습니다. 물의 양만 바꾸고 나머지를 고정해야 "물의 순수한 효과"를 측정할 수 있습니다. 다중회귀의 계수도 정확히 이 원리입니다 -- 수학적으로 다른 변수의 영향을 "고정(통제)"한 후 해당 변수만의 순수한 효과를 분리해냅니다.
일상 비유: 아파트 가격 모형에서 b_면적 = 120이라면, "층수, 역세권, 학군 등 다른 조건이 동일할 때, 면적이 1m2 넓어지면 가격이 약 120만원 상승"이라는 뜻입니다.
단순회귀
Y = b0 + b1*X
2차원: 직선 한 개
"X가 변하면 Y가 변한다"
다중회귀
Y = b0 + b1*X1 + b2*X2 + ...
다차원: 평면 또는 초평면
"다른 변수를 통제한 후 X1의 순수 효과"
실습 1: 변수 추가기 -- R-squared는 항상 올라간다?
| 변수 | 계수 (b) | 표준오차 | t값 | p값 |
|---|---|---|---|---|
| 변수를 추가하세요 | ||||
실습 2: 다중공선성 탐지기
독립변수들끼리 서로 강하게 상관되어 있으면, 각 변수의 개별 효과를 분리하기 어려워집니다. 이 현상을 다중공선성(Multicollinearity)이라고 합니다.
다중공선성의 증상:
- 계수의 부호가 직관과 반대로 나옴 (면적이 넓을수록 가격이 낮다?)
- 표준오차가 비정상적으로 커짐
- 변수 하나를 빼면 다른 변수의 계수가 급변
- 개별 변수는 유의하지 않은데 모형 전체는 유의함
| 변수 | 계수 | 표준오차 | VIF | 상태 |
|---|---|---|---|---|
| 시나리오를 선택하고 실행하세요 | ||||
실습 3: 계수 해석 퀴즈
다중회귀의 계수를 올바르게 해석하는 것은 가장 중요하면서도 가장 흔히 실수하는 부분입니다. 핵심 문구는 "다른 변수를 고정했을 때(holding other variables constant)"입니다.
실습 4: 3D 회귀 표면
변수가 2개인 다중회귀(Y = b0 + b1*X1 + b2*X2)는 3차원 공간에서 시각화할 수 있습니다. 아래 캔버스에서 마우스로 회전하며 회귀 평면과 데이터 점의 관계를 탐색해보세요.
어떤 변수를 넣을 것인가: 모형 선택
사용 가능한 변수가 10개라면, 가능한 모형 조합은 2의 10제곱 = 1,024가지입니다. 모든 조합을 시도할 수도 있지만, 효율적인 전략이 필요합니다.
전진 선택법
빈 모형에서 시작하여, 가장 유의한 변수를 하나씩 추가. 더 이상 유의한 변수가 없으면 중단.
후진 제거법
모든 변수를 넣고 시작하여, 가장 유의하지 않은 변수를 하나씩 제거. 모두 유의하면 중단.
단계적 선택법
전진+후진 결합. 변수를 추가한 뒤, 기존 변수 중 유의하지 않은 것이 있으면 제거.
검정: 모형 전체와 개별 변수
F검정 (전체 모형)
H0: 모든 계수 = 0 (모형이 쓸모없다)
H1: 하나 이상의 계수가 0이 아니다
F = (SSR/p) / (SSE/(n-p-1))
p값이 0.05 미만이면 "이 모형은 Y를 설명하는 데 유용하다"
t검정 (개별 변수)
H0: bj = 0 (이 변수는 불필요하다)
H1: bj가 0이 아니다
t = bj / SE(bj)
p값이 0.05 미만이면 "다른 변수가 있는 상태에서 이 변수는 추가 설명력을 가진다"
- 다중회귀는 Y = b0 + b1*X1 + b2*X2 + ... 형태로 여러 예측 변수를 동시에 사용한다.
- 각 계수 bj는 "다른 변수를 고정했을 때"의 Xj 효과(편회귀계수)이다.
- R-squared는 변수를 추가하면 항상 증가하므로, Adjusted R-squared로 비교해야 한다.
- 다중공선성은 계수를 불안정하게 만들며, VIF로 진단한다.
- 모형 선택(전진/후진/단계적)과 정보 기준(AIC, BIC)으로 적절한 변수 조합을 찾는다.
- F검정은 모형 전체, t검정은 개별 변수의 유의성을 판단한다.
다음 장 예고: 지금까지의 회귀는 Y가 연속 숫자(가격, 매출)인 경우였습니다. 그런데 Y가 "예/아니오" -- 이탈 여부, 합격 여부, 부도 여부 -- 라면 어떻게 할까요? 다음 장에서는 확률을 예측하는 로지스틱 회귀를 배웁니다.