카테고리 없음

2025.12.11 TIL (본캠프, 39일차)

D:Connect 2025. 12. 11. 21:24

오늘은 어제 배운 회귀분석을 더 깊이 있게 다루고, 통계와 머신러닝의 경계를 학습하였다.

 

회귀분석의 장단점

장점:

  • 친밀성: 가장 많이 사용되는 예측 방법
  • 유용성: 근거와 이유를 명확히 제시 가능
  • 유연성: 다양한 독립변수 조합 가능

단점:

  • 복잡성: 기본 가정이 어긋나면 사용 불가
  • 한계성: 비선형 관계 포착 어려움

 

회귀분석 결과 해석의 3가지 검증

1.  R² (설명력)

  • 모델이 데이터의 변동을 얼마나 설명하는가
  • 0부터 1 사이의 값 (1에 가까울수록 좋음)
  • R² = 0.34 → 34% 설명, 66%는 설명 못함

2.  F-검정 (전체 모형 유의성)

  • 귀무가설: 회귀 계수가 모두 0이다 (의미 없다)
  • 대립가설: 적어도 하나의 계수는 0이 아니다
  • p-value < 0.05 → 모형은 통계적으로 유의미

3.  t-검정 (각 변수의 유의성)

  • 귀무가설: 이 독립변수와 종속변수 간 선형관계가 없다
  • 대립가설: 선형관계가 있다
  • p-value < 0.05 → 이 변수는 의미 있다

 

OLS 결과표 읽기 (핵심만)

OLS는 회귀분석 결과를 보여주는 표다. 주요 항목:

항목의미
항목 의미
R-squared 설명력 (34.4% 설명)
Adj. R-squared 변수 개수를 고려한 조정 설명력
F-statistic 전체 모형의 크기 (클수록 유의미)
Prob (F-stat) F검정의 p-value (0.05 이하면 유의)
coef 절편과 기울기 값
**P> t
[0.025 0.975] 95% 신뢰구간

핵심: 검정통계량(t, F)의 절대값보다는 p-value로 신뢰성을 판단하자.

 

통계와 머신러닝의 가장 큰 차이 - Train/Test 분리

통계적 가설검정에서는 train/test 분리가 필수가 아니다:

  • 전체 데이터로 "이 변수가 의미 있는가?"를 판단
  • 예: Age가 구독에 영향을 주나? Purchase Amount가 유의미한가?

머신러닝 예측에서는 train/test 분리가 필수다:

  • 훈련 데이터(80%): 모델 학습
  • 테스트 데이터(20%): 모델 성능 평가
  • 왜? "배운 모델이 새로운 데이터에서도 잘 작동하는가?"를 확인해야 하니까
 
 
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

핵심 차이:

  • 통계: "이 데이터의 패턴이 의미 있는가?" (현재 데이터 분석)
  • 머신러닝: "미래 데이터를 잘 예측할 수 있는가?" (미래 예측)

 

하루를 마무리하며..

통계와 머신러닝, 둘다 중요하다.

처음이라 100%이해는 안되었지만 복습과 실습을 통해 지식을 쌓아가야겠다.