카테고리 없음
2025.12.12 TIL (본캠프, 40일차)
D:Connect
2025. 12. 12. 20:40
오늘 은 머신러닝 이론과 실습이 있는 날이다.
분류분석이란?
회귀 vs 분류
지난 며칠간 배운 회귀분석은 연속형 값을 예측하는 것이다.
- 내일 기온이 24.5°C일 것 같아 (숫자)
분류분석은 범주형 값을 예측하는 것이다.
- 내일 날씨가 맑을 것 같아 (선택지)
분류분석의 핵심
- 종속변수가 범주형 (구독/미구독, 이탈/잔존)
- 결과는 확률 (85% YES, 15% NO)
- 기준(결정 경계)을 찾는 것이 목표
로지스틱 회귀는 이름만 "회귀"일 뿐 사실 분류 모델이다.
분류 알고리즘
1. 로지스틱 회귀 (Logistic Regression)
- 원리: 선형식 → 시그모이드 함수 → 확률 → 분류
- 장점: 구현 매우 쉬움, 해석 쉬움
- 단점: 기본적인 모델, 복잡한 패턴 포착 어려움
- 평가: ⭐⭐
2. K-NN (K-Nearest Neighbors)
- 원리: "가까운 데이터끼리 같은 그룹"이라는 가정
- 거리 기반이므로 표준화/정규화 필수
- 장점: 구현 매우 쉬움, 직관적
- 단점: 피처 많으면 성능 저하 (차원의 저주)
- 평가: ⭐
3. Decision Tree
- 원리: if-else 조건으로 계속 분기
- 장점: 구현 쉬움, 해석 쉬움, 시각화 가능
- 단점: 과적합 위험 (훈련데이터에 너무 맞춤)
- 평가: ⭐⭐
4. Random Forest ⭐ 실무에서 가장 많이 사용
- 원리: 여러 Decision Tree를 만들어 다수결 (앙상블)
- Bootstrap: 일부 데이터로 여러 모델 학습
- 장점: 안정적, 과적합 방지, 성능 좋음
- 단점: 해석이 어려워짐
- 평가: ⭐⭐⭐
5. XGBoost (Extreme Gradient Boosting)
- 원리: 이전 나무의 오류를 다음 나무가 보정 (순차 학습)
- Level-wise: 안정적이지만 느림
- 장점: 매우 높은 성능
- 단점: 구현 어려움, 학습 시간 오래 걸림
- 평가: ⭐⭐⭐⭐
6. LightGBM (Light Gradient Boosting Machine)
- 원리: XGBoost와 유사하지만 최적의 leaf 노드만 확장
- Leaf-wise: XGBoost보다 빠름
- 장점: 매우 빠름, 매우 높은 성능
- 단점: 과적합 위험, 구현 어려움
- 평가: ⭐⭐⭐⭐⭐
분류 모델 평가 지표
정확도 (Accuracy): 전체 중 맞춘 비율
- 간단하지만 클래스 불균형에 약함
정밀도 (Precision): 예측한 것 중 맞춘 비율
- "스팸 필터가 얼마나 정확한가?" (오탐 중요)
재현율 (Recall): 실제 있는 것 중 맞춘 비율
- "암 진단에서 놓친 케이스가 몇 개인가?" (놓침 중요)
F1-Score: 정밀도와 재현율의 조화평균
- 둘 다 중요할 때 봐야 함
오후: 머신러닝 프로세스 이해
오늘의 모든 알고리즘이 따르는 동일한 패턴:
1. 데이터 로드
2. 전처리 (결측치, 이상치, 인코딩)
3. Train/Test 분리 (80/20)
4. 모델 생성 & 훈련
5. 예측 & 평가
이 패턴이 통계에서 머신러닝으로 가는 가장 중요한 변화다.
하루를 마무리하며...
40일차는 통계의 세계에서 머신러닝의 세계로 온 넘어오는 날이였다.
지난 6주간:
- 데이터를 이해했다 (탐색적 데이터 분석)
- 데이터를 검증했다 (가설검정)
- 데이터를 준비했다 (전처리)
- 데이터를 분석했다 (회귀분석)
이제:
- 데이터로 예측한다 (분류/회귀 모델)
- 모델을 평가한다 (정확도, F1-Score 등)
- 미래를 예측한다 (실제 업무)
이 모든 것들을 잘 이해하고 적절하게 활용할때 데이터 분석가가 되는 것 같다.