카테고리 없음

2025.12.10 TIL (본캠프, 38일차)

D:Connect 2025. 12. 10. 21:10

오늘은 통계와 머신러닝의 관계를 정리하고, 회귀분석이라는 통계의 핵심을 배웠다.

 

 

지금까지 배운 통계가 실제로는 머신러닝을 돕는다는 것을 알게 됐다.

통계가 머신러닝을 돕는 경우:

  • 피처 선택: 유의미한 변수만 선택
  • 데이터 전처리: 결측치, 이상치 처리

머신러닝이 통계를 돕는 경우:

  • 복잡한 비선형 패턴을 포착
  • 대규모 데이터에서 성능 향상

실무의 흐름: 통계로 초기분석 → 머신러닝으로 예측성능 극대화 → 통계로 결과 검증

 

머신러닝의 두 가지 종류....

지도학습: 정답이 있는 데이터로 학습 (분류, 회귀)

  • 예: 이메일 스팸 판단

비지도학습: 정답이 없는 데이터에서 패턴 찾기 (클러스터링, 차원축소)

  • 예: 고객 세분화, 추천 시스템

핵심 차이는 라벨의 유무다.

 

회귀분석이란?

목적: 독립변수(원인)로 종속변수(결과)를 예측하기

기본 식: y = a + bx

  • y: 종속변수 (결과)
  • x: 독립변수 (원인)
  • a: 절편
  • b: 기울기

예시: 게임시간(x) → 전기세(y)

 

3단계 프로세스

  1. 독립/종속변수 설정
  2. 데이터 경향성 확인 (산점도, 상관관계)
  3. 정합성 검증 & 결과 해석

 

회귀분석의 종류

선형회귀: 연속형 변수 예측

  • 단순: 독립변수 1개
  • 다중: 독립변수 2개 이상

로지스틱 회귀: 범주형 변수 분류 (0/1, 예/아니오)

 

회귀분석 결과 해석 (3가지 검증)

1.  R² (설명력): 모델이 얼마나 잘 설명하는가

  • 0과 1 사이의 값 (1에 가까울수록 좋음)
  • R² = 0.34 → 34% 설명, 66% 설명 못함

2. F-검정: 전체 모형이 통계적으로 유의한가

  • p-value < 0.05 → 모형 유의미

3. t-검정: 각 변수가 유의미한가

  • p-value < 0.05 → 이 변수는 의미있다

핵심: 검정통계량(t, F)의 절대값보다는 p-value로 신뢰성을 판단하자.

 

하루를 마무리하며...

지금까지 배운 개념들(신뢰구간, 가설검정, Feature Scaling, 로지스틱 회귀)이 모두 오늘 회귀분석에서 활용되는거 같다.

개인적인 생각으로는 통계는 머신러닝의 언어인거 같다.

내일은 머신러닝 실습이다.

이론을 실습으로 연습하다보면 이해가 더 잘될거 같다.