로지스틱 회귀
확률을 예측하는 회귀
예 또는 아니오 -- 결과가 둘 중 하나라면
고객이 이탈할 것인가, 남을 것인가? 대출 신청자가 상환할 것인가, 부도낼 것인가? 환자가 회복할 것인가, 악화될 것인가?
이런 문제의 공통점은 결과(Y)가 0 또는 1이라는 것입니다. 지금까지 배운 선형회귀(Y = b0 + b1*X)를 그대로 적용하면 어떻게 될까요? 예측값이 -0.3이나 1.5처럼 확률 범위(0~1)를 벗어나는 문제가 생깁니다.
로지스틱 회귀는 이 문제를 우아하게 해결합니다. 시그모이드 함수가 어떤 값이든 0과 1 사이로 눌러줍니다.
실습 1: 왜 선형회귀는 안 되는가?
시그모이드 함수: 모든 것을 0과 1 사이로
로지스틱 회귀의 핵심은 시그모이드(logistic) 함수입니다. 어떤 실수 z를 넣어도, 출력은 반드시 0과 1 사이입니다.
- z가 매우 크면 (양의 무한대) -> p는 1에 수렴
- z가 매우 작으면 (음의 무한대) -> p는 0에 수렴
- z = 0이면 -> p = 0.5 (반반)
쉽게 말하면: S자 곡선은 "아무리 커도 1을 넘지 않고, 아무리 작아도 0 아래로 안 간다"는 성질을 가집니다. 수도꼭지를 생각해보세요. 아무리 세게 돌려도 물은 100% 이상 나올 수 없고, 아무리 잠가도 음수만큼 나올 수는 없습니다. 시그모이드 함수가 바로 이 "수도꼭지 역할"을 합니다 -- 어떤 입력(z)이 들어와도 출력을 0과 1 사이의 확률로 자연스럽게 눌러줍니다. 중간 구간에서는 민감하게 반응하고, 극단적 값에서는 거의 변하지 않는 것이 S자 곡선의 특징입니다.
실습 2: 시그모이드 탐색기
로짓, 오즈, 그리고 오즈비
로지스틱 회귀를 깊이 이해하려면 세 가지 개념의 관계를 알아야 합니다.
확률 (p)
사건이 일어날 가능성. 0에서 1 사이.
예: 이탈 확률 = 0.7 (70%)
오즈 (Odds)
p / (1-p). 실패 대비 성공의 비율. 0에서 무한대.
예: 0.7 / 0.3 = 2.33 ("이탈이 잔류의 2.33배")
로짓 (Logit)
log(Odds). 음의 무한대에서 양의 무한대.
예: log(2.33) = 0.847
"야근 여부를 제외한 다른 조건(월급, 근속연수, 만족도 등)이 모두 같을 때, 야근하는 직원이 이탈할 가능성은 야근하지 않는 직원보다 2.3배 높다."
오즈비 1 = 차이 없음, 1보다 크면 = 위험 증가, 1보다 작으면 = 위험 감소. 예를 들어 OR = 0.5라면 "이 변수가 1 늘면 오히려 이탈 가능성이 절반으로 줄어든다"는 뜻입니다.
실습 3: ROC 커브와 분류 성능
로지스틱 회귀는 확률을 출력합니다. 이 확률을 "예/아니오"로 바꾸려면 임계값(threshold)을 정해야 합니다. "확률이 0.5 이상이면 이탈로 분류"가 흔한 기본값이지만, 최적은 아닐 수 있습니다.
TP (True Positive): 실제 1을 1로 맞춤
FP (False Positive): 실제 0을 1로 잘못 분류 (거짓 경보)
TN (True Negative): 실제 0을 0으로 맞춤
FN (False Negative): 실제 1을 0으로 놓침 (놓침 오류)
민감도(Sensitivity)는 "진짜 암 환자 중에서 검사가 '양성'으로 잡아낸 비율"입니다. 이 값이 높으면 암 환자를 놓칠 확률이 줄어듭니다.
특이도(Specificity)는 "건강한 사람 중에서 검사가 '음성'으로 정확히 판별한 비율"입니다. 이 값이 높으면 건강한 사람을 불필요하게 겁주는 일이 줄어듭니다.
문제는 민감도를 올리면 특이도가 내려가고, 특이도를 올리면 민감도가 내려간다는 것입니다. ROC 곡선은 임계값을 바꿔가며 이 두 가지의 트레이드오프를 그래프로 보여줍니다. 곡선이 왼쪽 위 모서리에 가까울수록 "민감도와 특이도 둘 다 높은" 좋은 모형입니다.
- 암 검진: 놓침(FN)이 치명적이므로 임계값을 낮춰 "조금이라도 의심되면 양성 판정"
- 스팸 필터: 중요한 이메일을 스팸으로 잘못 분류(FP)하면 큰 문제이므로 임계값을 높여 "확실한 경우만 스팸 처리"
- 고객 이탈: 이탈 고객을 놓치는 비용과 잔류 고객에게 불필요한 혜택을 제공하는 비용을 비교하여 결정
실습 4: 오즈비 해석기
직원 이탈 데이터에 로지스틱 회귀를 적합한 결과를 해석해봅니다. 각 변수의 오즈비(OR)가 무엇을 의미하는지, 예측 변수 값을 변경하면 예측 확률이 어떻게 변하는지 체험합니다.
| 변수 | 계수 (b) | 오즈비 (e^b) | 95% CI | 해석 |
|---|
예측 시뮬레이터: 이 직원은 이탈할까?
실습 5: 비용 기반 임계값 최적화
분류 오류의 비용이 대칭이 아닌 경우가 대부분입니다. 암 진단에서 놓침(FN)은 치명적이지만 거짓 경보(FP)는 추가 검사 정도입니다. 고객 이탈에서도 마찬가지입니다.
로지스틱 회귀 결과 읽기
| 항목 | 선형회귀 | 로지스틱 회귀 |
|---|---|---|
| 종속변수 Y | 연속형 (가격, 매출) | 이진형 (0 또는 1) |
| 예측값 | Y 자체 (실수) | P(Y=1) 확률 (0~1) |
| 함수 형태 | 직선 | 시그모이드(S자) 곡선 |
| 추정 방법 | OLS (잔차 제곱합 최소) | MLE (우도 최대화) |
| 적합도 | R-squared | AUC, Log-Likelihood, Pseudo R-squared |
| 계수 해석 | Y의 변화량 | 로짓(log-odds)의 변화량, 또는 오즈비 |
| 가정 | LINE (선형, 독립, 정규, 등분산) | 독립, 선형적 로짓, 다중공선성 없음 |
- 이진 결과(0/1)에 선형회귀를 적용하면 예측이 [0,1] 범위를 벗어난다.
- 로지스틱 회귀는 시그모이드 함수로 출력을 0~1 확률로 변환한다.
- 계수 b는 로짓(log-odds)의 변화량이며, e^b = 오즈비(OR)로 해석한다.
- 분류 임계값에 따라 혼동행렬이 달라지고, ROC 곡선과 AUC로 전체 성능을 평가한다.
- 임계값은 비용 구조(FN vs FP 비용)에 따라 최적화해야 한다.
다음 장 예고: 지금까지 배운 회귀 기법들은 "지도학습"의 핵심 도구입니다. 다음 장에서는 이들을 종합하여 실제 데이터셋에 적용하는 캡스톤 프로젝트를 진행합니다.