카테고리 없음

2025.12.12 TIL (본캠프, 40일차)

D:Connect 2025. 12. 12. 20:40

오늘 은 머신러닝 이론과 실습이 있는 날이다.

 

분류분석이란?

회귀 vs 분류

지난 며칠간 배운 회귀분석은 연속형 값을 예측하는 것이다.

  • 내일 기온이 24.5°C일 것 같아 (숫자)

분류분석은 범주형 값을 예측하는 것이다.

  • 내일 날씨가 맑을 것 같아 (선택지)

분류분석의 핵심

  1. 종속변수가 범주형 (구독/미구독, 이탈/잔존)
  2. 결과는 확률 (85% YES, 15% NO)
  3. 기준(결정 경계)을 찾는 것이 목표

로지스틱 회귀는 이름만 "회귀"일 뿐 사실 분류 모델이다.

 

분류 알고리즘

1. 로지스틱 회귀 (Logistic Regression)

  • 원리: 선형식 → 시그모이드 함수 → 확률 → 분류
  • 장점: 구현 매우 쉬움, 해석 쉬움
  • 단점: 기본적인 모델, 복잡한 패턴 포착 어려움
  • 평가: ⭐⭐

2. K-NN (K-Nearest Neighbors)

  • 원리: "가까운 데이터끼리 같은 그룹"이라는 가정
  • 거리 기반이므로 표준화/정규화 필수
  • 장점: 구현 매우 쉬움, 직관적
  • 단점: 피처 많으면 성능 저하 (차원의 저주)
  • 평가: ⭐

3. Decision Tree

  • 원리: if-else 조건으로 계속 분기
  • 장점: 구현 쉬움, 해석 쉬움, 시각화 가능
  • 단점: 과적합 위험 (훈련데이터에 너무 맞춤)
  • 평가: ⭐⭐

4. Random Forest ⭐ 실무에서 가장 많이 사용

  • 원리: 여러 Decision Tree를 만들어 다수결 (앙상블)
  • Bootstrap: 일부 데이터로 여러 모델 학습
  • 장점: 안정적, 과적합 방지, 성능 좋음
  • 단점: 해석이 어려워짐
  • 평가: ⭐⭐⭐

5. XGBoost (Extreme Gradient Boosting)

  • 원리: 이전 나무의 오류를 다음 나무가 보정 (순차 학습)
  • Level-wise: 안정적이지만 느림
  • 장점: 매우 높은 성능
  • 단점: 구현 어려움, 학습 시간 오래 걸림
  • 평가: ⭐⭐⭐⭐

6. LightGBM (Light Gradient Boosting Machine)

  • 원리: XGBoost와 유사하지만 최적의 leaf 노드만 확장
  • Leaf-wise: XGBoost보다 빠름
  • 장점: 매우 빠름, 매우 높은 성능
  • 단점: 과적합 위험, 구현 어려움
  • 평가: ⭐⭐⭐⭐⭐

 

분류 모델 평가 지표

정확도 (Accuracy): 전체 중 맞춘 비율

  • 간단하지만 클래스 불균형에 약함

정밀도 (Precision): 예측한 것 중 맞춘 비율

  • "스팸 필터가 얼마나 정확한가?" (오탐 중요)

재현율 (Recall): 실제 있는 것 중 맞춘 비율

  • "암 진단에서 놓친 케이스가 몇 개인가?" (놓침 중요)

F1-Score: 정밀도와 재현율의 조화평균

  • 둘 다 중요할 때 봐야 함

오후: 머신러닝 프로세스 이해

오늘의 모든 알고리즘이 따르는 동일한 패턴:

1. 데이터 로드
2. 전처리 (결측치, 이상치, 인코딩)
3. Train/Test 분리 (80/20)
4. 모델 생성 & 훈련
5. 예측 & 평가

이 패턴이 통계에서 머신러닝으로 가는 가장 중요한 변화다.

 

하루를 마무리하며...

40일차는 통계의 세계에서 머신러닝의 세계로 온 넘어오는 날이였다.

지난 6주간:

  • 데이터를 이해했다 (탐색적 데이터 분석)
  • 데이터를 검증했다 (가설검정)
  • 데이터를 준비했다 (전처리)
  • 데이터를 분석했다 (회귀분석)

이제:

  • 데이터로 예측한다 (분류/회귀 모델)
  • 모델을 평가한다 (정확도, F1-Score 등)
  • 미래를 예측한다 (실제 업무)

이 모든 것들을 잘 이해하고 적절하게 활용할때 데이터 분석가가 되는 것 같다.