카테고리 없음

2025.12.09 TIL (본캠프, 37일차)

D:Connect 2025. 12. 9. 21:00

오늘은 마지막 통계 라이브 세션이 있었다.

마지막 강의에서는 로지스틱 회귀에 대해서 학습하였다.

 

선형회귀의 한계...

지난번에 배운 선형회귀는 강력한 분석 방법이였지만, 오늘 배운 문제에서 그 한계가 명확하게 알수 있었다.

선형회귀가 할 수 없는 것:

  1. 0과 1 사이의 값으로만 제한된 예측 (확률)을 다루지 못한다
  2. 음수 확률이나 1 이상의 확률이 나올 수 있다
  3. 0과 1을 가르는 결정 경계를 만들 수 없다

분류 문제의 예시들이 와닿았다:

  • 고객이 이탈할 것인가? (1) vs 이탈하지 않을 것인가? (0)
  • 이메일이 스팸인가? (1) vs 정상인가? (0)
  • 의료 진단: 양성인가? (1) vs 음성인가? (0)

이런 문제들은 연속적인 수치 예측이 아니라 범주에 속할 확률을 예측하는 것이다.

 

오즈(Odds)와 오즈비(Odds Ratio)

왜 확률이 아니라 오즈를 사용할까?

개념의미예시

개념 의미 예시
확률(p) 전체 중 성공 비율 p=0.8 → 80% 성공
오즈(odds) 성공이 실패보다 몇 배 많은가 0.8 / 0.2 = 4 (4:1)

 

처음에는 "왜 이런 복잡한 개념을 만들었을까?" 했지만, 생각해보니 이것이 훨씬 더 많은 정보를 담는다.

예를 들어:

  • 남성 구매 확률 = 0.8 → 오즈 = 4
  • 여성 구매 확률 = 0.4 → 오즈 = 0.667
  • 오즈비 = 4 / 0.667 ≈ 6

해석하자면  "남성의 구매 오즈가 여성보다 6배 높다"는 뜻이다.

 

왜 오즈비가 더 나을까?

확률로 비교하면:

  • 0.8 - 0.4 = 0.4 증가 (변화가 작아 보임)

오즈로 비교하면:

  • 4배 차이 (곱셈적, 실제 차이를 더 잘 반영)

확률은 0부터 1 사이에 갇혀있어서 변화 폭이 제한되지만, 오즈는 그보다 훨씬 큰 범위를 표현할 수 있다.

 

로짓 함수(Logit Function)

왜 오즈에 로그를 씌울까?

문제: 오즈는 선형적이지 않다

오즈의 특징:

  • 값의 범위가 0부터 무한대(∞)까지
  • 스케일이 비대칭적이다
  • X가 1 증가할 때 오즈가 일정한 비율로 증가하지 않는다

예시:

X 확률 오즈
1 0.2 0.25
2 0.4 0.667
3 0.6 1.5

오즈가 일정한 폭으로 증가하지 않는다. 이것은 선형 회귀식에 직접 사용할 수 없다는 뜻이다.

 

해결책: 로그를 취하면 선형이 된다

로그 오즈의 특징:

  • 범위: -∞부터 +∞까지
  • 곱셈 관계가 덧셈 관계로 변환된다
  • 변화 폭이 완만해진다
오즈로그 오즈
0.25 -1.39
1 0
4 1.39

이제 일정한 간격을 유지하므로 선형 회귀식을 적용할 수 있다.

 

로지스틱 회귀(Logistic Regression)

로지스틱 회귀의 3단계 과정

1단계: 입력 X를 로그 오즈로 변환 (로짓 함수)

2단계: 로그 오즈를 다시 확률로 변환 (시그모이드 함수)

3단계: 임계값을 기준으로 0 또는 1로 분류

 

시그모이드 함수

  • 입력값이 아무리 크든 작든
  • 출력값은 항상 0과 1 사이
  • S자 모양의 부드러운 곡선
  • p ≥ 0.5 → 1로 분류
  • p < 0.5 → 0으로 분류

계수 β의 의미: 오즈비

로지스틱 회귀의 계수 β는 선형회귀처럼 "X가 1 증가하면 y가 β만큼 증가한다"가 아니라:

  • "X가 1 증가하면 오즈가 e^β배 증가한다"

예를 들어 β = 0.5라면:

  • e^0.5 ≈ 1.65
  • 오즈가 65% 증가한다는 뜻

이런 특징이 선형회귀와의 가장 큰 해석적 차이다.

 

모형 평가 지표

혼동 행렬(Confusion Matrix)

분류 모델을 평가하기 위해 예측값과 실제값을 4가지로 분류:

  • TP (True Positive): 실제 1, 예측 1 (맞춘 것)
  • FP (False Positive): 실제 0, 예측 1 (잘못된 경보)
  • FN (False Negative): 실제 1, 예측 0 (놓친 것)
  • TN (True Negative): 실제 0, 예측 0 (맞춘 것)

4가지 평가 지표

지표 의미 활용 방법
정확도 (Accuracy) 전체 중 맞춘 비율 클래스가 균형잡혀있을 때
정밀도 (Precision) 예측한 1 중 실제 1의 비율 오탐이 문제일 때 (스팸 필터)
재현율 (Recall) 실제 1 중 예측한 1의 비율 놓침이 문제일 때 (질병 진단)
F1-Score 정밀도와 재현율의 조화평균 둘 다 중요할 때

 

예를 들어:

  • 스팸 필터: 정밀도가 중요 (정상 메일을 스팸으로 잘못 분류하면 안 됨)
  • 질병 진단: 재현율이 중요 (질병이 있는데 없다고 하면 안 됨)

ROC Curve와 AUC

임계값을 변화시키면서 모델의 성능을 평가하는 방법:

  • ROC Curve: TPR(재현율)과 FPR(1-특이도)의 관계를 그린 그래프
  • AUC: ROC 곡선 아래 면적 (0.5~1 사이, 1에 가까울수록 좋음)

AUC의 장점: 임계값에 영향을 받지 않고 모델의 전반적 성능을 평가할 수 있다.

 

로지스틱 회귀의 한계

로지스틱 회귀는 기준이 직선(또는 평면)이다. 따라서:

  • 비선형적이고 복잡한 패턴을 구분하기 어렵다
  • 다중공선성에 민감하다
  • 이상치에 민감하다

"로지스틱 회귀는 해석이 쉽고 강력한 기본 분류 모델이지만, 선형 결정 경계라는 구조적 한계가 있어 복잡한 패턴을 학습하는 데는 제한이 있다."

 

마무리: 통계 vs 머신러닝

통계학의 관점: "왜 이런 일이 일어나는가?"

  • 해석과 이해에 집중
  • p-value, 신뢰구간, 가설검정
  • 모델의 신뢰성과 타당성

머신러닝의 관점: "어떤 일이 일어날 것인가?"

  • 예측 성능에 집중
  • 정확도, 정밀도, 재현율
  • 모델의 성능 극대화

그런데 이것이 대립하는 것이 아니라 상보적이다.

로지스틱 회귀는 둘의 경계에 있다:

  • 통계: 오즈비로 변수의 영향을 해석할 수 있다
  • 머신러닝: 확률로 미래를 예측할 수 있다

우리는 왜 통계를 배워야 할까?

  1. 숫자에 의미를 붙이는 힘: 예측이 중요하지만, 그 결과를 해석하고 책임질 수 있어야 한다
  2. 불확실성의 이해: "이 확률로 맞을 것"이라는 조심스러운 판단이 가능해진다
  3. 머신러닝의 기초: 모든 머신러닝 성능 평가 지표가 통계 기반이다

"통계는 단순한 숫자가 아니라 데이터로 현실을 해석하고 세상을 이해하려는 태도이다."

 

하루를 마무리하며....

처음 통계를 배울 때는 "이게 왜 필요하지?"라는 의문이 있었다.

이제는 이해가 된다.

  • 통계는 기술이 아니라 관점이다
  • 데이터를 믿는 방법이자, 의심하는 방법이다
  • 예측을 하는 것이 아니라, 예측의 한계를 아는 것이다

오늘 강의를 들으면서 한 가지 궁금한 점이 남았다.

  • 통계에서는 모집단을 이해하려고 하고
  • 머신러닝에서는 미래를 예측하려고 한다

하지만 실무에서는 어떤 비율로 섞여서 사용될까? 다음 주부터는 머신러닝을 배우면서 그 답을 찾을 것 같다.