오늘은 마지막 통계 라이브 세션이 있었다.
마지막 강의에서는 로지스틱 회귀에 대해서 학습하였다.
선형회귀의 한계...
지난번에 배운 선형회귀는 강력한 분석 방법이였지만, 오늘 배운 문제에서 그 한계가 명확하게 알수 있었다.
선형회귀가 할 수 없는 것:
- 0과 1 사이의 값으로만 제한된 예측 (확률)을 다루지 못한다
- 음수 확률이나 1 이상의 확률이 나올 수 있다
- 0과 1을 가르는 결정 경계를 만들 수 없다
분류 문제의 예시들이 와닿았다:
- 고객이 이탈할 것인가? (1) vs 이탈하지 않을 것인가? (0)
- 이메일이 스팸인가? (1) vs 정상인가? (0)
- 의료 진단: 양성인가? (1) vs 음성인가? (0)
이런 문제들은 연속적인 수치 예측이 아니라 범주에 속할 확률을 예측하는 것이다.
오즈(Odds)와 오즈비(Odds Ratio)
왜 확률이 아니라 오즈를 사용할까?
개념의미예시
| 개념 | 의미 | 예시 |
| 확률(p) | 전체 중 성공 비율 | p=0.8 → 80% 성공 |
| 오즈(odds) | 성공이 실패보다 몇 배 많은가 | 0.8 / 0.2 = 4 (4:1) |
처음에는 "왜 이런 복잡한 개념을 만들었을까?" 했지만, 생각해보니 이것이 훨씬 더 많은 정보를 담는다.
예를 들어:
- 남성 구매 확률 = 0.8 → 오즈 = 4
- 여성 구매 확률 = 0.4 → 오즈 = 0.667
- 오즈비 = 4 / 0.667 ≈ 6
해석하자면 "남성의 구매 오즈가 여성보다 6배 높다"는 뜻이다.
왜 오즈비가 더 나을까?
확률로 비교하면:
- 0.8 - 0.4 = 0.4 증가 (변화가 작아 보임)
오즈로 비교하면:
- 4배 차이 (곱셈적, 실제 차이를 더 잘 반영)
확률은 0부터 1 사이에 갇혀있어서 변화 폭이 제한되지만, 오즈는 그보다 훨씬 큰 범위를 표현할 수 있다.
로짓 함수(Logit Function)
왜 오즈에 로그를 씌울까?
문제: 오즈는 선형적이지 않다
오즈의 특징:
- 값의 범위가 0부터 무한대(∞)까지
- 스케일이 비대칭적이다
- X가 1 증가할 때 오즈가 일정한 비율로 증가하지 않는다
예시:
| X | 확률 | 오즈 |
| 1 | 0.2 | 0.25 |
| 2 | 0.4 | 0.667 |
| 3 | 0.6 | 1.5 |
오즈가 일정한 폭으로 증가하지 않는다. 이것은 선형 회귀식에 직접 사용할 수 없다는 뜻이다.
해결책: 로그를 취하면 선형이 된다
로그 오즈의 특징:
- 범위: -∞부터 +∞까지
- 곱셈 관계가 덧셈 관계로 변환된다
- 변화 폭이 완만해진다
| 오즈로그 | 오즈 |
| 0.25 | -1.39 |
| 1 | 0 |
| 4 | 1.39 |
이제 일정한 간격을 유지하므로 선형 회귀식을 적용할 수 있다.
로지스틱 회귀(Logistic Regression)
로지스틱 회귀의 3단계 과정
1단계: 입력 X를 로그 오즈로 변환 (로짓 함수)
2단계: 로그 오즈를 다시 확률로 변환 (시그모이드 함수)
3단계: 임계값을 기준으로 0 또는 1로 분류
시그모이드 함수
- 입력값이 아무리 크든 작든
- 출력값은 항상 0과 1 사이
- S자 모양의 부드러운 곡선
- p ≥ 0.5 → 1로 분류
- p < 0.5 → 0으로 분류
계수 β의 의미: 오즈비
로지스틱 회귀의 계수 β는 선형회귀처럼 "X가 1 증가하면 y가 β만큼 증가한다"가 아니라:
- "X가 1 증가하면 오즈가 e^β배 증가한다"
예를 들어 β = 0.5라면:
- e^0.5 ≈ 1.65
- 오즈가 65% 증가한다는 뜻
이런 특징이 선형회귀와의 가장 큰 해석적 차이다.
모형 평가 지표
혼동 행렬(Confusion Matrix)
분류 모델을 평가하기 위해 예측값과 실제값을 4가지로 분류:
- TP (True Positive): 실제 1, 예측 1 (맞춘 것)
- FP (False Positive): 실제 0, 예측 1 (잘못된 경보)
- FN (False Negative): 실제 1, 예측 0 (놓친 것)
- TN (True Negative): 실제 0, 예측 0 (맞춘 것)
4가지 평가 지표
| 지표 | 의미 | 활용 방법 |
| 정확도 (Accuracy) | 전체 중 맞춘 비율 | 클래스가 균형잡혀있을 때 |
| 정밀도 (Precision) | 예측한 1 중 실제 1의 비율 | 오탐이 문제일 때 (스팸 필터) |
| 재현율 (Recall) | 실제 1 중 예측한 1의 비율 | 놓침이 문제일 때 (질병 진단) |
| F1-Score | 정밀도와 재현율의 조화평균 | 둘 다 중요할 때 |
예를 들어:
- 스팸 필터: 정밀도가 중요 (정상 메일을 스팸으로 잘못 분류하면 안 됨)
- 질병 진단: 재현율이 중요 (질병이 있는데 없다고 하면 안 됨)
ROC Curve와 AUC
임계값을 변화시키면서 모델의 성능을 평가하는 방법:
- ROC Curve: TPR(재현율)과 FPR(1-특이도)의 관계를 그린 그래프
- AUC: ROC 곡선 아래 면적 (0.5~1 사이, 1에 가까울수록 좋음)
AUC의 장점: 임계값에 영향을 받지 않고 모델의 전반적 성능을 평가할 수 있다.
로지스틱 회귀의 한계
로지스틱 회귀는 기준이 직선(또는 평면)이다. 따라서:
- 비선형적이고 복잡한 패턴을 구분하기 어렵다
- 다중공선성에 민감하다
- 이상치에 민감하다
"로지스틱 회귀는 해석이 쉽고 강력한 기본 분류 모델이지만, 선형 결정 경계라는 구조적 한계가 있어 복잡한 패턴을 학습하는 데는 제한이 있다."
마무리: 통계 vs 머신러닝
통계학의 관점: "왜 이런 일이 일어나는가?"
- 해석과 이해에 집중
- p-value, 신뢰구간, 가설검정
- 모델의 신뢰성과 타당성
머신러닝의 관점: "어떤 일이 일어날 것인가?"
- 예측 성능에 집중
- 정확도, 정밀도, 재현율
- 모델의 성능 극대화
그런데 이것이 대립하는 것이 아니라 상보적이다.
로지스틱 회귀는 둘의 경계에 있다:
- 통계: 오즈비로 변수의 영향을 해석할 수 있다
- 머신러닝: 확률로 미래를 예측할 수 있다
우리는 왜 통계를 배워야 할까?
- 숫자에 의미를 붙이는 힘: 예측이 중요하지만, 그 결과를 해석하고 책임질 수 있어야 한다
- 불확실성의 이해: "이 확률로 맞을 것"이라는 조심스러운 판단이 가능해진다
- 머신러닝의 기초: 모든 머신러닝 성능 평가 지표가 통계 기반이다
"통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다."
하루를 마무리하며....
처음 통계를 배울 때는 "이게 왜 필요하지?"라는 의문이 있었다.
이제는 이해가 된다.
- 통계는 기술이 아니라 관점이다
- 데이터를 믿는 방법이자, 의심하는 방법이다
- 예측을 하는 것이 아니라, 예측의 한계를 아는 것이다
오늘 강의를 들으면서 한 가지 궁금한 점이 남았다.
- 통계에서는 모집단을 이해하려고 하고
- 머신러닝에서는 미래를 예측하려고 한다
하지만 실무에서는 어떤 비율로 섞여서 사용될까? 다음 주부터는 머신러닝을 배우면서 그 답을 찾을 것 같다.